O futuro da Deep Learning: de textos a imagens e hierarquias 

Yann LeCun, cientista-chefe de IA da Meta AI Research e professor catedrático do Instituto Courant de Ciências Matemáticas da Universidade de Nova Iorque, uma das mentes mais importantes e pioneiras no campo da Deep Learning, deu, na passada sexta-feira, na Academia de Ciências da Baviera, em Munique, uma visão fascinante do futuro desta tecnologia emergente.

A sua palestra inspiradora resumiu a evolução da Deep Learning até aos atuais modelos linguísticos de grande dimensão (LLM), como o ChatGPT, salientando ao mesmo tempo os desafios e as potencialidades que nos esperam nos próximos anos.

LeCun reduz o problema dos atuais modelos linguísticos de grande dimensão, como o ChatGPT, a dois desafios principais. Em primeiro lugar, não há dados de texto suficientes para treinar os LLMs, que estão a crescer cada vez mais, e os dados de texto transmitem apenas um "conhecimento do mundo" limitado no sentido da física. Por outro lado, os LLMs baseiam-se na previsão recursiva da palavra seguinte, sem uma componente de planeamento. Por conseguinte, LeCun considera que as LLMs atuais constituem um avanço impressionante, mas que é estruturalmente limitado.

Extensão de LLMs a dados de imagem

LeCun propõe treinar grandes redes de forma semelhante às LLMs com dados de imagem, removendo áreas de imagem que a rede deve depois adicionar novamente.

Por um lado, esta abordagem resolve o problema do texto limitado, uma vez que existem muito mais dados de imagem do que de texto. Por outro lado, as imagens podem ser facilmente geradas através da observação do mundo real, enquanto os textos só podem ser escritos por humanos. À semelhança dos LLMs, Yann LeCun espera a emergência de um "Foundation Model", ou seja, um modelo que constrói um conhecimento emergente do mundo das imagens e que pode ser facilmente "refinado" para aplicações específicas.

Entre outros, a Meta IA treinou e "refinou" com sucesso o modelo "DINOv2" para a determinação da altura das árvores para monitorização ambiental a partir de imagens de satélite com comparativamente poucos dados, demonstrando assim a ideia de um modelo de base para dados de imagem.

Redes hierárquicas para planificar o pensamento

LeCun propõe uma nova arquitetura hierárquica (H-JEPA) que permite começar com um planeamento aproximado, que é depois aperfeiçoado passo a passo. O objetivo é ultrapassar a limitação dos LLMs de pensarem apenas de palavra para palavra. Esta ideia ainda está na sua fase inicial, mas promete uma nova e excitante direção para o desenvolvimento da IA.

A nossa conclusão

A história das redes neuronais é uma história de inovações estruturais, desde a CNN e a RNN até à LSTM e à Transformer. As propostas de LeCun podem ser o próximo passo evolutivo - mas também existem outros desenvolvimentos prometedores. Enquanto aguardamos ansiosamente a evolução das suas ideias, uma coisa é certa: a integração de LLMs e dados de imagem é um marco importante.
As "Foundation Networks" baseadas em imagens podem revolucionar a compreensão e o processamento automáticos dos dados de imagem nos processos empresariais. No entanto, os requisitos de hardware para modelos de base (“Foundation models”) são normalmente muito mais elevados do que para modelos especializados.

Com as nossas novas GPUs nVidia H100, no CIB group estamos numa posição ideal para compreender e avaliar essas questões no nosso departamento de investigação e para as utilizar da melhor forma nos nossos produtos.

Dr. Tobias Abthoff

Seu especialista em IA CIB