Forschung
Unsere Forschungsgruppe untersucht die computationalen und kognitiven Grundlagen natürlicher Sprache und erforscht, wie diese bei Menschen und Maschinen entsteht und funktioniert. In letzter Zeit liegt unser Fokus auf Vision-Language Models (VLMs) – multimodalen Systemen, die darauf abzielen, Wahrnehmungs- und Konzeptinformationen in einheitlichen Repräsentationen zu erfassen. Diese Systeme bieten nicht nur eine Testumgebung für Theorien über Bedeutung, Wahrnehmung und Kommunikation, sondern erweitern auch die Grenzen der skalierbaren KI.
Wir konzentrieren uns insbesondere auf:
- Evaluierung von Vision-Language Models: Wir entwickeln strenge Benchmarks und Interpretierbarkeitstools, um zu beurteilen, wie gut VLMs über die physikalische, räumliche, zeitliche und alltägliche Struktur der visuellen Welt schlussfolgern. Unser Ziel ist es, über oberflächliche Leistungsbewertungen hinauszugehen und die Mechanismen aufzudecken, die ein robustes multimodales Verständnis untermauern.
- Entwicklung neuer multimodaler Architekturen: Wir erforschen neuartige Wege, visuelle und sprachliche Informationen zu verschmelzen, und suchen nach Architekturen, die über die reine Feature-Konkatenation hinausgehen und die integrative Natur menschlicher Wahrnehmung besser annähern. Wir lassen uns von der kognitiven Neurowissenschaft und dem Deep Learning inspirieren, um Designprinzipien zu entwickeln.
- Emergente Kommunikation: Wir untersuchen, wie künstliche Agenten Kommunikationssysteme durch Interaktion entwickeln können, indem wir die Dynamik der Sprachentwicklung und des Lernens modellieren. Diese Simulationen liefern Erkenntnisse über die kognitiven und sozialen Funktionen der Sprache und bieten Rahmenwerke für die Entwicklung adaptiverer KI.
- Kompositionalität: Unsere Forschung baut theoretische Brücken zwischen linguistischen Vorstellungen von Kompositionalität und dem empirischen Verhalten neuronaler Modelle und entwickelt aufgabenunabhängige Bewertungen, die aufzeigen, wie – und ob – Modelle Bedeutung systematisch generalisieren.
- Grounded Language Learning (Verankertes Sprachlernen): Wir bringen Modellen bei, sprachliche Formen mit Wahrnehmungs- und Sensordaten zu verbinden, mit dem Ziel, einen kontextsensitiven und handlungsrelevanten Sprachgebrauch zu fördern. Diese Arbeit umfasst Aufgaben wie Befolgung von Anweisungen, räumliches Denken und interaktiver visueller Dialog.
Unsere interdisziplinäre Methodik schöpft aus der Linguistik, Kognitionswissenschaft, Computer Vision und dem maschinellen Lernen, um die Grenzen des Sprachverständnisses in einzelnen und multimodalen Umgebungen zu erweitern.
Bei Fragen oder Anfragen nach Publikationen können Sie uns gerne kontaktieren.