Das Bild zeigt vier Männer in einem hellen Raum vor einem großen Bildschirm, auf dem eine simulierte Straße zu sehen ist. Der Mann in der Mitte mit blauem Pullover gestikuliert in Richtung des Bildschirms. Ein Mann links hält einen Laptop. Im Hintergrund ist eine Whiteboard mit Text zu sehen.
© Simone Reukauf

Maschinelle Sprachverarbeitung

Unsere Forschungsgruppe untersucht, wie intelligente Agenten Sprache verstehen und nutzen. Dabei liegt der Schwerpunkt zunehmend auf der Integration von Bild und Sprache in großangelegten Modellen. An der Schnittstelle von Kognitionswissenschaft und künstlicher Intelligenz wollen wir das maschinelle Verständnis menschlicher Kommunikation voranbringen – sowohl in rein linguistischen als auch in umfassenden multimodalen Kontexten.

Wir fragen uns, wie Sprache entsteht, sich entwickelt und als System zur Übermittlung strukturierter, begründeter Bedeutung funktioniert. Wir untersuchen, wie Computersysteme dieses System erlernen, repräsentieren und nutzen können, und zwar auf eine Weise, die die Vielseitigkeit und Flexibilität menschlicher Kognition widerspiegelt.

Nahaufnahme einer Hand, die auf einer beleuchteten Tastatur tippt. Im Hintergrund sind unscharf Computerbildschirme zu sehen, die durch das gedämpfte Licht beleuchtet werden.
© Simone Reukauf

Forschung

Drei Frauen sitzen zusammen an einem Tisch und arbeiten mit einem Laptop, einem Tablet, Papier und Stift. Die Szene ist von oben zu sehen und ist hell erleuchtet.
© Simone Reukauf

Studieren und Arbeiten

Hölzerne Figuren stehen auf hölzernen Zahnrädern, die ineinander greifen.
© Vitalii Vodolazskyi | stock.adobe.com

Team

Neue Publikationen

Julius Mayer, Mohamad Ballout, Serwan Jassim, Farbod Nosrat Nezami, and Elia Bruni: iVISPAR – An Interactive Visual-Spatial Reasoning Benchmark for VLMs. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025).
Preprint available:  https://arxiv.org/abs/2502.03214

 

Mohamad Ballout, Okajevo Wilfred, Seyedalireza Yaghoubi, Nohayr Muhammad Abdelmoneim, Julius Mayer, and Elia Bruni: Can you SPLICE it together? A Human Curated Benchmark for Probing Visual Reasoning in VLMs. In Findings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025). Preprint available:  https://arxiv.org/abs/2509.24640