El futuro del aprendizaje profundo: de los textos a las imágenes y las jerarquías

octubre 9, 2023
Tiempo de lectura: 3 min

Yann LeCun, Jefe Científico de IA en Meta AI Research y Catedrático en el Instituto Courant de Ciencias Matemáticas de la Universidad de Nueva York, una de las mentes más destacadas y pioneras en el campo del Deep Learning Aprendizaje Profundo, ofreció el pasado viernes en la Academia Bávara de Ciencias de Múnich una fascinante perspectiva sobre el futuro de esta tecnología emergente.

Su inspiradora charla resumió la evolución desde el Deep Learning hasta los grandes modelos lingüísticos (LLM) actuales, como ChatGPT, al tiempo que destacó los retos y potenciales que nos esperan en los próximos años.

LeCun reduce el problema de los grandes modelos lingüísticos actuales, como ChatGPT, a dos retos principales. Por un lado, no hay suficientes datos de texto para entrenar los cada vez más numerosos LLM, y los datos de texto sólo transmiten un "conocimiento del mundo" limitado en el sentido de la física. Por otro, los LLM se basan en la predicción recursiva de la siguiente palabra, sin un componente de planificación. Por tanto, LeCun considera que los LLM actuales son un avance impresionante, pero estructuralmente limitado.

Extensión de los LLM a los datos de imagen

LeCun propone entrenar grandes mallas de forma similar a los LLM con datos de imagen, eliminando áreas de imagen que la malla debe volver a añadir.

Por un lado, este enfoque resuelve el problema del texto limitado, ya que hay muchos más datos de imágenes que de texto. Por otro, las imágenes pueden generarse fácilmente observando el mundo real, mientras que los textos sólo pueden escribirlos los humanos. Al igual que los LLM, Yann LeCun espera la aparición de un "Foundation Model", es decir, un modelo que construya un conocimiento emergente del mundo de las imágenes y pueda "refinarse" fácilmente para aplicaciones específicas.

Entre otros, Meta IA ha entrenado y "refinado" con éxito un modelo de este tipo "DINOv2" para la determinación de la altura de los árboles con fines de vigilancia medioambiental a partir de imágenes de satélite con datos comparativamente escasos, demostrando así la idea de un modelo de base para datos de imágenes.

Redes jerárquicas para planificar el pensamiento

LeCun propone una nueva arquitectura jerárquica (H-JEPA) que permite empezar con una planificación aproximada, que luego se refina paso a paso. Con ello se pretende superar la limitación de los LLM de pensar sólo de palabra en palabra. Esta idea está aún en sus primeras fases, pero promete una nueva y apasionante dirección para el desarrollo de la IA.

Nuestra conclusión

La historia de las redes neuronales es una historia de innovaciones estructurales, desde CNN y RNN hasta LSTM y Transformer. Las propuestas de LeCun podrían ser el siguiente paso evolutivo, pero también hay otros desarrollos prometedores. Mientras esperamos con impaciencia cómo se desarrollan sus ideas, una cosa es cierta: la integración de los LLM y los datos de imagen es un hito importante.

Las "Foundation Networks" basadas en imágenes podrían revolucionar la comprensión y el tratamiento automáticos de los datos de imágenes en los procesos empresariales. Sin embargo, los requisitos de hardware de los modelos de base suelen ser mucho mayores que los de los modelos especializados.

Con nuestras nuevas GPU nVidia H100, en CIB estamos en una posición ideal para comprender y evaluar estos aspectos en nuestro departamento de investigación y sacar el máximo partido de ellos en nuestros productos.

Let´s CIB!

Lea más sobre CIB e Inteligencia Artificial

Inteligencia artificial, CIB IA

CIB Group

Expertos en digitalización

Más artículos

CIB doXiview 9.0.9: Mayor productividad y más seguridad en la gestión de documentos

Transformación de PDF - con la nueva CIB pdf toolbox mayor control y eficiencia

Nueva Ley de Libertad de la Información en Austria: Con más transparencia llega el reto de salvaguardar la protección de datos

CIB documentServer - Procesamiento optimizado de documentos para mayor seguridad y eficiencia

¡Hola! ¿Qué puedo hacer por ti?

Volver al Blog

IA e Inovación

El futuro del aprendizaje profundo: de los textos a las imágenes y las jerarquías

Extensión de los LLM a los datos de imagen

Redes jerárquicas para planificar el pensamiento

Nuestra conclusión

CIB Group

Expertos en digitalización

Más artículos

CIB doXiview 9.0.9: Mayor productividad y más seguridad en la gestión de documentos

Transformación de PDF - con la nueva CIB pdf toolbox mayor control y eficiencia

Nueva Ley de Libertad de la Información en Austria: Con más transparencia llega el reto de salvaguardar la protección de datos

CIB documentServer - Procesamiento optimizado de documentos para mayor seguridad y eficiencia

HERRAMIENTAS PARA NEGOCIO

Soluciones CCM & BPM

Su correspondencia con un clic

Business Exchange

Soluciones PDF para empresas

Factura electrónica

HERRAMIENTAS ONLINE INTEGRABLES

La nube segura

Edición de PDF en el navegador

Comprimir PDF

Mobile Apps

Firma digital

INTELIGENCIA ARTIFICIAL

CIB IA

Entrenando la IA

Open Source

CIB ESPAÑA

Asesoría comercial

Soporte técnico

Empresa

Digitalización y Automatización

Sectores

Casos de éxito

CIB User Group

Productos

La nube segura

PDF-Experten

IA

Entrenando la IA

Open Source

Portal CIB eLearning

CIB ESPAÑA

Asesoría comercial

Soporte técnico

Servicio de plantillas

Empresa

For Business

CIB ESPAÑA

Asesoría comercial

Soporte técnico

Zum Anfrageformular

Empresa