Die Zukunft von Deep Learning: Von Texten zu Bildern und Hierarchien 

Yann LeCun, Chief AI Scientist bei Meta AI Research und Silver Professor am Courant Institute of Mathematical Sciences der New York University, einer der führenden Köpfe und Pioniere auf dem Gebiet des Deep Learning, gab am vergangenen Freitag in der Bayerischen Akademie der Wissenschaften in München einen faszinierenden Ausblick auf die Zukunft dieser aufstrebenden Technologie.

Sein inspirierender Vortrag fasste die Entwicklung von Deep Learning bis hin zu den heutigen großen Sprachmodellen wie ChatGPT (Large Language Models, LLMs) zusammen und zeigte gleichzeitig die Herausforderungen und Potentiale auf, die uns in den kommenden Jahren erwarten.

LeCun reduziert das Problem heutiger großer Sprachmodelle wie ChatGPT auf zwei wesentliche Herausforderungen. Zum einen gibt es nicht genügend Textdaten, um die immer größer werdenden LLMs zu trainieren, und Textdaten vermitteln nur begrenztes “Weltwissen” im Sinne der Physik. Zum anderen basieren LLMs auf der rekursiven Vorhersage des nächsten Wortes, ohne eine planende Komponente zu besitzen. LeCun sieht daher in den heutigen LLMs einen beeindruckenden Durchbruch, der aber strukturell begrenzt ist.

Erweiterung der LLMs auf Bilddaten

LeCun schlägt vor, große Netze ähnlich wie LLMs mit Bilddaten zu trainieren, indem Bildbereiche entfernt werden, die das Netz dann wieder ergänzen soll.

Dieser Ansatz löst einerseits das Problem der begrenzten Textmenge, da es viel mehr Bilddaten als Texte gibt. Andererseits können Bilder leicht durch Beobachtung der realen Welt erzeugt werden, während Texte nur von Menschen geschrieben werden können. Ähnlich wie bei LLMs erwartet Yann LeCun die Entstehung eines “Foundation Model”, d.h. eines Modells, das ein emergentes Weltwissen über Bilder aufbaut und leicht für spezielle Anwendungen “verfeinert” werden kann.

Unter anderen hat Meta AI ein solches Modell “DINOv2” trainiert und erfolgreich für die Bestimmung von Baumhöhen für die Umweltbeobachtung aus Satellitenbildern mit vergleichsweise wenigen Daten “verfeinert” und damit die Idee eines Foundation Model für Bilddaten demonstriert.

Hierarchische Netze für planendes Denken

LeCun schlägt eine neue hierarchische Architektur (H-JEPA) vor, die es erlaubt, mit einer groben Planung zu beginnen, die dann schrittweise verfeinert wird. Damit soll die Beschränkung der LLMs, nur von Wort zu Wort zu denken, überwunden werden. Diese Idee steckt noch im Anfangsstadium, verspricht aber eine spannende neue Richtung der Entwicklung von KI.

Unser Fazit

Die Geschichte der neuronalen Netze ist eine Geschichte struktureller Innovationen, von CNN und RNN bis zu LSTM und Transformer. LeCuns Vorschläge könnten der nächste Evolutionsschritt sein – es gibt aber auch andere vielversprechende Entwicklungen. Während wir gespannt darauf warten, wie sich seine Ideen entwickeln, ist eines sicher: Die Integration von LLMs und Bilddaten ist ein wichtiger Meilenstein.
Bildbasierte “Foundation Networks” könnten das automatische Verstehen und Verarbeiten von Bilddaten in Geschäftsprozessen revolutionieren. Allerdings sind die Anforderungen an die Hardware von “Foundation”-Modellen in der Regel deutlich höher als bei spezialisierten Modellen.

Mit unseren neuen nVidia H100 GPUs sind wir bestens aufgestellt, um solche Themen in unserer Forschungsabteilung nachzuvollziehen, zu bewerten und in unseren Produkten optimal zu nutzen.

Dr. Tobias Abthoff

Ihr CIB KI-Experte