Die Zukunft von Deep Learning: Von Texten zu Bildern und Hierarchien

Oktober 9, 2023
Lesezeit: 3 min

Yann LeCun, Chief AI Scientist bei Meta AI Research und Silver Professor am Courant Institute of Mathematical Sciences der New York University, einer der führenden Köpfe und Pioniere auf dem Gebiet des Deep Learning, gab am vergangenen Freitag in der Bayerischen Akademie der Wissenschaften in München einen faszinierenden Ausblick auf die Zukunft dieser aufstrebenden Technologie.

Sein inspirierender Vortrag fasste die Entwicklung von Deep Learning bis hin zu den heutigen großen Sprachmodellen wie ChatGPT (Large Language Models, LLMs) zusammen und zeigte gleichzeitig die Herausforderungen und Potentiale auf, die uns in den kommenden Jahren erwarten.

LeCun reduziert das Problem heutiger großer Sprachmodelle wie ChatGPT auf zwei wesentliche Herausforderungen. Zum einen gibt es nicht genügend Textdaten, um die immer größer werdenden LLMs zu trainieren, und Textdaten vermitteln nur begrenztes “Weltwissen” im Sinne der Physik. Zum anderen basieren LLMs auf der rekursiven Vorhersage des nächsten Wortes, ohne eine planende Komponente zu besitzen. LeCun sieht daher in den heutigen LLMs einen beeindruckenden Durchbruch, der aber strukturell begrenzt ist.

Erweiterung der LLMs auf Bilddaten

LeCun schlägt vor, große Netze ähnlich wie LLMs mit Bilddaten zu trainieren, indem Bildbereiche entfernt werden, die das Netz dann wieder ergänzen soll.

Dieser Ansatz löst einerseits das Problem der begrenzten Textmenge, da es viel mehr Bilddaten als Texte gibt. Andererseits können Bilder leicht durch Beobachtung der realen Welt erzeugt werden, während Texte nur von Menschen geschrieben werden können. Ähnlich wie bei LLMs erwartet Yann LeCun die Entstehung eines “Foundation Model”, d.h. eines Modells, das ein emergentes Weltwissen über Bilder aufbaut und leicht für spezielle Anwendungen “verfeinert” werden kann.

Unter anderen hat Meta AI ein solches Modell “DINOv2” trainiert und erfolgreich für die Bestimmung von Baumhöhen für die Umweltbeobachtung aus Satellitenbildern mit vergleichsweise wenigen Daten “verfeinert” und damit die Idee eines Foundation Model für Bilddaten demonstriert.

Hierarchische Netze für planendes Denken

LeCun schlägt eine neue hierarchische Architektur (H-JEPA) vor, die es erlaubt, mit einer groben Planung zu beginnen, die dann schrittweise verfeinert wird. Damit soll die Beschränkung der LLMs, nur von Wort zu Wort zu denken, überwunden werden. Diese Idee steckt noch im Anfangsstadium, verspricht aber eine spannende neue Richtung der Entwicklung von KI.

Unser Fazit

Die Geschichte der neuronalen Netze ist eine Geschichte struktureller Innovationen, von CNN und RNN bis zu LSTM und Transformer. LeCuns Vorschläge könnten der nächste Evolutionsschritt sein – es gibt aber auch andere vielversprechende Entwicklungen. Während wir gespannt darauf warten, wie sich seine Ideen entwickeln, ist eines sicher: Die Integration von LLMs und Bilddaten ist ein wichtiger Meilenstein.

Bildbasierte “Foundation Networks” könnten das automatische Verstehen und Verarbeiten von Bilddaten in Geschäftsprozessen revolutionieren. Allerdings sind die Anforderungen an die Hardware von “Foundation”-Modellen in der Regel deutlich höher als bei spezialisierten Modellen.

Mit unseren neuen nVidia H100 GPUs sind wir bestens aufgestellt, um solche Themen in unserer Forschungsabteilung nachzuvollziehen, zu bewerten und in unseren Produkten optimal zu nutzen.

Let´s CIB!

Hier geht es weiter zu CIB KI

Künstliche Intelligenz, CIB KI

Zurück zum Blog

KI & Innovation

Die Zukunft von Deep Learning: Von Texten zu Bildern und Hierarchien

Erweiterung der LLMs auf Bilddaten

Hierarchische Netze für planendes Denken

Unser Fazit

CIB Group

Die Digitalisierungsexperten

Weitere Artikel anzeigen

CIB doXiview 9.0.9: Mehr Produktivität und Sicherheit im Dokumenten-Management

PDF-Transformation: Noch mehr Kontrolle mit der neuen CIB pdf toolbox

Das neue Informationsfreiheitsgesetz in Österreich: Transparenz stärken – Datenschutz wahren

CIB documentServer – Optimierte Dokumentenverarbeitung für mehr Sicherheit, Effizienz und Zukunftsfähigkeit

BUSINESS TOOLS

CCM & BPM

Postversand per Klick

Business Exchange

Business All-round-PDF-Editor

Elektronische Rechnung

FREE ONLINE TOOLS

Die sichere Cloud

PDF-Bearbeitung im Browser

PDF verkleinern

Mobile Apps

Digitale Signatur

KÜNSTICHE INTELLIGENZ

CIB KI

KI-Training

Open Source

Produktberatung

Support (Mo-Fr, 8- 19 Uhr)

Schriftartumstellungsservice

Unternehmen

Digitalisierung & Automatisierung

Branchen

Case Studies

CIB User Group

Produkte

Sichere Cloud

PDF-Experten

KI-Module

KI-Training

Open Source

Dokumentationen

Produktberatung

Support (Mo-Fr, 8- 19 Uhr)

Vorlagenservice

Unternehmen

For Business

Produktberatung

Support (Mo-Fr, 8- 19 Uhr)

Zum Anfrageformular

Unternehmen