084/2025
Menschliches Sehen neu verstehen

Artikel in „Nature Machine Intelligence“ erschienen

In einer Studie im renommierten Journal Nature Machine Intelligence schlägt ein Forscherteam vor, Sprachmodelle aus der Künstlichen Intelligenz zum Verständnis des menschlichen Sehens einzusetzen. Das ist ein weltweit neuer Ansatz.

Zum Hintergrund der Studie: Wenn wir die Welt um uns herum betrachten, erkennt unser Gehirn nicht nur Objekte wie „Hund“ oder „Auto“, sondern versteht auch übergeordnete räumliche, semantische Zusammenhänge – was geschieht, wo es geschieht und wie alles zusammenpasst. Diese Informationen sind essentiell für unser Verständnis des menschlichen Sehens, doch bisher fehlten Wissenschaftlerinnen und Wissenschaftlern die Werkzeuge, um diese komplexen Vorgänge zu analysieren.

“Sprachmodelle zum Verständnis visueller Verarbeitung zu nutzen klingt zunächst unsinnig”, erklärt Prof. Dr. Tim C. Kietzmann von der Uni Osnabrück und Co-Erstautor der Studie. “Allerdings sind Sprachmodelle extrem gut darin, kontextuelle Informationen zu verarbeiten, und haben ein gleichzeitig semantisch reichhaltiges Verständnis von Objekten und Aktionen. Das sind wichtige Zutaten, die auch das visuelle System extrahieren könnte, wenn es mit natürlichen Szenen konfrontiert ist.” 

Und in der Tat: sprachliche Szenenbeschreibungen, dargestellt in großen Sprachmodellen, sogenannten Large Language Models, weisen erstaunliche Ähnlichkeiten zu Hirnaktivität im visuellen System auf, während Probanden die entsprechenden Bilder in einem Magnetresonanztomographen anschauen. Könnte es also sein, dass das visuelle System des menschlichen Gehirns als Aufgabe hat, visuelle Eindrücke so zu verarbeiten, dass sie kompatibel mit Sprache sind? “Es ist denkbar, dass das Gehirn über verschiedene Sinne und Sprache hinweg versucht, eine einheitliche Sprache, eine lingua franca, zu finden. Dies würde den Austausch zwischen Hirnarealen extrem vereinfachen“, so Prof. Dr. Adrien Doerig, der mittlerweile an der FU Berlin forscht.

Die Forschenden gingen noch einen Schritt weiter: Sie trainierten künstliche neuronale Netze, welche in einem mehrstufigen Verfahren aus Bildern korrekte Sprachmodell-Repräsentationen vorhersagen können. Diese Modelle, welche visuelle Informationen dahingehend verarbeiten, dass sie sprachlich dekodierbar sind, können die Hirnaktivität der Probanden besser abbilden, als viele der derzeit führenden KI-Modelle im Feld.

Die überraschende Übereinstimmung von Repräsentationen in KI-Sprachmodellen und Aktivierungsmustern im Gehirn ist nicht nur von Bedeutung für unser Verständnis komplexer semantischer Verarbeitung im Gehirn, sondern zeigt gleichzeitig auch mögliche Pfade auf, wie KI-Systeme in Zukunft verbessert werden können. Auch medizinische Anwendungen sind denkbar. So gelang es dem Forscherteam ebenfalls, mit Hilfe von KI akkurate Beschreibungen der Bilder zu generieren, die die Probanden im Hirnscanner anschauten. Dieses Gedankenlesen weist auf mögliche Verbesserungen für Gehirn-Computer-Schnittstellen hin. Andersherum könnte diese neue Technologie eines Tages auch zur Entwicklung visueller Prothesen für Menschen mit starken Sehbeeinträchtigungen beitragen.

Zum Paper : Adrien Doerig et al., High-level visual representations in the human brain are aligned with large language models, Nature Machine Intelligence (2025). DOI: 10.1038/s42256-025-01072-0 https:// www.nature.com/articles/s42256-025-01072-0
 

Weitere Informationen für die Redaktionen:
Prof. Dr. Tim C. Kietzmann, Universität Osnabrück
Institut für Kognitionswissenschaft
 tim.kietzmann@uni-osnabrueck.de

Verwandte Nachrichten

Werbeplakat für die Digitale Woche der Stadt Osnabrück 2025 zum Thementag "Community". Eine Gruppe Menschen schaut auf Tablets.
© Stadt Osnabrück

Vortrag "KI und politische Macht" im Rahmen der Digitalen Woche 2025

Am 25. September, 18:00-19:30 Uhr, ordnet die Kognitionswissenschaftlerin Annemarie Witschas (AG Ethik der KI, Universität Osnabrück) in ihrem Vortrag die Rolle von KI in antidemokratischen Projekten und deren ideologische Hintergründe ein. 

Trauer um Prof. PhD Horst Behncke

Prof. Behncke lehrte von 1974 bis zu seinem Eintritt in den Ruhestand im Jahr 2008 als Professor für Mathematik an der Universität Osnabrück; er gehörte damit zu den Gründungsvätern und formte als mehrfacher Dekan die Mathematik in Osnabrück.

© Simone Reukauf

Studie: Betriebe vor großer Herausforderung

Eine Studie zeigt, dass viele Gastronomiebetriebe sich an Krisen anpassen können. Die Überlagerung verschiedener Krisen (Coronapandemie, Russlands Angriffskrieg auf die Ukraine, Inflation) gefährdet aber häufig die Existenz der Betriebe.

© stock.adobe.com | westend61

Informatiker erforschen den Speicher der Zukunft

Neuartige Arbeitsspeicher stellen die Computerwelt auf den Kopf: Sie behalten Daten auch ohne Strom, können selbst rechnen und lassen sich in Speicherpools von mehreren Rechnern gemeinsam nutzen.