El futuro del aprendizaje profundo: de los textos a las imágenes y las jerarquías 

Yann LeCun, Jefe Científico de IA en Meta AI Research y Catedrático en el Instituto Courant de Ciencias Matemáticas de la Universidad de Nueva York, una de las mentes más destacadas y pioneras en el campo del Deep Learning Aprendizaje Profundo, ofreció el pasado viernes en la Academia Bávara de Ciencias de Múnich una fascinante perspectiva sobre el futuro de esta tecnología emergente.

Su inspiradora charla resumió la evolución desde el Deep Learning hasta los grandes modelos lingüísticos (LLM) actuales, como ChatGPT, al tiempo que destacó los retos y potenciales que nos esperan en los próximos años.

LeCun reduce el problema de los grandes modelos lingüísticos actuales, como ChatGPT, a dos retos principales. Por un lado, no hay suficientes datos de texto para entrenar los cada vez más numerosos LLM, y los datos de texto sólo transmiten un "conocimiento del mundo" limitado en el sentido de la física. Por otro, los LLM se basan en la predicción recursiva de la siguiente palabra, sin un componente de planificación. Por tanto, LeCun considera que los LLM actuales son un avance impresionante, pero estructuralmente limitado.

Extensión de los LLM a los datos de imagen

LeCun propone entrenar grandes mallas de forma similar a los LLM con datos de imagen, eliminando áreas de imagen que la malla debe volver a añadir.

Por un lado, este enfoque resuelve el problema del texto limitado, ya que hay muchos más datos de imágenes que de texto. Por otro, las imágenes pueden generarse fácilmente observando el mundo real, mientras que los textos sólo pueden escribirlos los humanos. Al igual que los LLM, Yann LeCun espera la aparición de un "Foundation Model", es decir, un modelo que construya un conocimiento emergente del mundo de las imágenes y pueda "refinarse" fácilmente para aplicaciones específicas.

Entre otros, Meta IA ha entrenado y "refinado" con éxito un modelo de este tipo "DINOv2" para la determinación de la altura de los árboles con fines de vigilancia medioambiental a partir de imágenes de satélite con datos comparativamente escasos, demostrando así la idea de un modelo de base para datos de imágenes.

Redes jerárquicas para planificar el pensamiento

LeCun propone una nueva arquitectura jerárquica (H-JEPA) que permite empezar con una planificación aproximada, que luego se refina paso a paso. Con ello se pretende superar la limitación de los LLM de pensar sólo de palabra en palabra. Esta idea está aún en sus primeras fases, pero promete una nueva y apasionante dirección para el desarrollo de la IA.

Nuestra conclusión

La historia de las redes neuronales es una historia de innovaciones estructurales, desde CNN y RNN hasta LSTM y Transformer. Las propuestas de LeCun podrían ser el siguiente paso evolutivo, pero también hay otros desarrollos prometedores. Mientras esperamos con impaciencia cómo se desarrollan sus ideas, una cosa es cierta: la integración de los LLM y los datos de imagen es un hito importante.
Las "Foundation Networks" basadas en imágenes podrían revolucionar la comprensión y el tratamiento automáticos de los datos de imágenes en los procesos empresariales. Sin embargo, los requisitos de hardware de los modelos de base suelen ser mucho mayores que los de los modelos especializados.

Con nuestras nuevas GPU nVidia H100, en CIB estamos en una posición ideal para comprender y evaluar estos aspectos en nuestro departamento de investigación y sacar el máximo partido de ellos en nuestros productos.

Dr. Tobias Abthoff

Su experto en IA de CIB