Das Bild zeigt vier Männer in einem hellen Raum vor einem großen Bildschirm, auf dem eine simulierte Straße zu sehen ist. Der Mann in der Mitte mit blauem Pullover gestikuliert in Richtung des Bildschirms. Ein Mann links hält einen Laptop. Im Hintergrund ist eine Whiteboard mit Text zu sehen.
© Simone Reukauf

Maschinelle Sprachverarbeitung

Unsere Forschungsgruppe untersucht, wie intelligente Agenten Sprache verstehen und nutzen. Dabei liegt der Schwerpunkt zunehmend auf der Integration von Bild und Sprache in großangelegten Modellen. An der Schnittstelle von Kognitionswissenschaft und künstlicher Intelligenz wollen wir das maschinelle Verständnis menschlicher Kommunikation voranbringen – sowohl in rein linguistischen als auch in umfassenden multimodalen Kontexten.

Wir fragen uns, wie Sprache entsteht, sich entwickelt und als System zur Übermittlung strukturierter, begründeter Bedeutung funktioniert. Wir untersuchen, wie Computersysteme dieses System erlernen, repräsentieren und nutzen können, und zwar auf eine Weise, die die Vielseitigkeit und Flexibilität menschlicher Kognition widerspiegelt.

Julius Mayer, Mohamad Ballout, Serwan Jassim, Farbod Nosrat Nezami, and Elia Bruni: iVISPAR – An Interactive Visual-Spatial Reasoning Benchmark for VLMs. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025).
Preprint available:  https://arxiv.org/abs/2502.03214

 

Mohamad Ballout, Okajevo Wilfred, Seyedalireza Yaghoubi, Nohayr Muhammad Abdelmoneim, Julius Mayer, and Elia Bruni: Can you SPLICE it together? A Human Curated Benchmark for Probing Visual Reasoning in VLMs. In Findings of the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025). Preprint available:  https://arxiv.org/abs/2509.24640