KI und Geschichtswissenschaft | Ein optimistischer Blick
Prof. Dr. Christoph Rass
Arbeitsgruppe Neueste Geschichte und Historische Migrationsforschung
[IMIS] [SFB1604] [HistOS]
KI-gestützte Forschungsassistenz in der Geschichtswissenschaft: Retrieval-Augmented Generation und NotebookLM - der optimistische Blick
Vorbemerkung zu diesem Beitrag
Der vorliegende Beitrag versteht sich als eine Positionsbestimmung der Arbeitsgruppe Neueste Geschichte und Historische Migrationsforschung (NGHM) der Universität Osnabrück zu den Potentialen und Grenzen KI-gestützter Forschung in der Geschichtswissenschaft. Er entsteht in einer Phase dynamischer technologischer Entwicklung und intensiver fachlicher Debatten über den Einsatz von Large Language Models und verwandten Technologien in geschichtswissenschaftlicher Forschung und Lehre.
Diese Positionsbestimmung ist als Beitrag zu einer laufenden Debatte zu verstehen, nicht als abschließender Befund. Die rasante Entwicklung von KI-Technologien erfordert kontinuierliche Beobachtung, kritische Evaluation und methodologische Reflexion. Wir sehen diesen Text als Diskussionsgrundlage für Kolleginnen und Kollegen, als Orientierungshilfe für Studierende und als Ausgangspunkt für weitere Auseinandersetzung mit den Herausforderungen und Chancen, die KI-Werkzeuge für die Geschichtswissenschaft mit sich bringen.
Neue Werkzeuge, alte Fragen
Künstliche Intelligenz hat die Geschichtswissenschaft erreicht. Während Large Language Models (LLMs) wie ChatGPT bereits seit 2022 für Diskussionen sorgen, stellt Retrieval-Augmented Generation (RAG) eine technologisch neuere Entwicklung dar, die für geschichtswissenschfatliche Forschung besonders relevant erscheint. Im Gegensatz zu generischen Chatbots versprechen RAG-Systeme wie Google NotebookLM, ausschließlich mit vom Forschenden hochgeladenen Quellen zu arbeiten oder auf externe Wissensbestände zuzugreifen und jede Aussage mit Nachweisen zu belegen – Eigenschaften, die den Kernprinzipien wissenschaftlicher Arbeit näherkommen könnten.
Dieser Beitrag betrachtet kritisch, was RAG-Systeme für die Geschichtswissenschaft leisten können und wo ihre Grenzen liegen. Er richtet sich an Studierende und Forschende, die verstehen möchten, wie diese Technologien funktionieren,welche methodisch-erkenntnistheoretischen Fragen sie aufwerfen und wie sie sich in die etablierte Landschaft der Digital Humanities einfügen.
Das zentrale Argument lautet: RAG-Systeme bieten wertvolle Hilfsfunktionen für bestimmte Arbeitsschritte, können aber die hermeneutische Arbeit und das historische Denken nicht ersetzen. Vielmehr verlangen sie nach einer Neubestimmung dessen, was genuin geschichtswissenschaftliche Kompetenz ausmacht.
Technische Grundlagen: Wie RAG-Systeme funktionieren
-
Architektur und Funktionsweise
Retrieval-Augmented Generation kombiniert zwei technische Komponenten zu einem hybriden System ( Lewis et al. 2020). Die Retriever-Komponente durchsucht externe Wissensdatenbanken mittels semantischer Vektorsuche. Dokumente werden zunächst in numerische Embeddings umgewandelt – mathematische Repräsentationen in hochdimensionalen Räumen –, die semantische Ähnlichkeiten erfassbar machen. Bei einer Nutzeranfrage ermittelt der Retriever die relevantesten Textpassagen durch Vergleich von Query- und Dokumentvektoren (üblicherweise mittels Kosinusähnlichkeit).
Die Generator-Komponente ist ein vortrainiertes Sprachmodell (z.B. GPT, Gemini), das die gefundenen Passagen als Kontext erhält und daraus eine Antwort generiert ( AWS 2025). Der entscheidende Unterschied zu reinen LLMs: Das Modell arbeitet nicht nur mit seinem parametrischen Gedächtnis (dem in Netzwerkgewichten kodierten Trainingswissen), sondern kombiniert dies mit nicht-parametrischem Gedächtnis – den explizit abgerufenen Dokumenten ( Gao et al. 2024).
Der technische Prozess läuft in sechs Schritten ab:
- Dokumentindexierung durch Chunking und Embedding-Erstellung,
- Speicherung in Vektordatenbanken,
- Nutzeranfrage wird ebenfalls in Vektorform konvertiert,
- Ähnlichkeitssuche findet relevante Chunks,
- Augmentation fügt Chunks dem Prompt hinzu,
- LLM generiert kontextgebundene Antwort ( NVIDIA 2024; DataCamp 2024).
Welche Vorteile bringt dieses Vorgehen gegenüber dem schlichten Einsatz von generativer KI?
-
RAG versus reine LLMs: Zentrale Unterschiede
Die Unterscheidung zwischen RAG und reinen LLMs ist für geschichtswissenschaftliche Anwendungen entscheidend.
- Wissensquelle: Während ChatGPT ausschließlich auf statisches Trainingswissen zurückgreift (mit Stichtag), greift RAG dynamisch auf aktualisierbare externe Quellen zu ( IBM Research 2024).
- Transparenz: Reine LLMs sind Black Boxes ohne Quellenangabe; RAG-Systeme können dagegen Zitate zu Ursprungsdokumenten liefern und ermöglichen damit Quellenattribution ähnlich wie Fußnoten in wissenschaftlichen Arbeiten, sodass Nutzer Behauptungen überprüfen können ( Lewis et al. 2020).
- Halluzinationen: Die Gefahr fabrizierter Informationen sinkt bei RAG, da Antworten auf tatsächlichen Textpassagen basieren müssen ( Huang et al. 2023).
- Aktualisierbarkeit: RAG-Wissensdatenbanken lassen sich ohne kostspieliges Retraining erweitern ( Oracle 2024).
Für Historikerinnen und Historiker bedeutet dies:
- RAG-Systeme bieten prinzipiell nachvollziehbarere, quellengebundenere Ausgaben – jedoch keine Garantie für Korrektheit.
Studien zeigen, dass RAG-Systeme zwar weniger halluzinieren als reine LLMs, aber dennoch fehleranfällig bleiben. Benchmark-Tests zeigen Halluzinationsraten von 3-8% bei führenden RAG-Systemen (Vectara 2023/2024), während breitere Qualitätsprobleme wie fehlende Kontextverankerung in bis zu 23% der Fälle auftreten können (TruEra 2024). Die Herausforderung: RAG kann faktisch korrekte, aber kontextuell irreführende Quellen abrufen, die zu falschen Schlussfolgerungen führen.
Google NotebookLM: Analyse eines RAG-basierten Forschungsassistenten
-
Kernfunktionen und technische Spezifikationen
NotebookLM, entwickelt von Google auf Basis des Gemini-Modells (seit Dezember 2024 Gemini 2.0 Flash), verkörpert den source-grounding-Ansatz:
- Alle Antworten sollen ausschließlich aus hochgeladenen Quellen stammen ( Google 2023).
- Das System akzeptiert diverse Formate – PDFs (bis 500.000 Wörter), Google Docs, Textdateien, URLs, YouTube-Videos mit Transkripten – und erlaubt bis zu 50 Quellen pro Notizbuch (300 bei NotebookLM Plus) ( DataCamp 2024).
- Jede Antwort enthält Inline-Zitate, die zu spezifischen Textstellen verlinken ( THA 2024).
Die Studio-Funktionen generieren automatisch Studienführer, FAQs, Zeitleisten, Briefing-Dokumente und Mindmaps aus hochgeladenen Quellen ( Applied AI Tools 2025). Besonders innovativ sind Audio Overviews: KI-generierte Podcast-Gespräche zwischen zwei synthetischen Moderatoren, die (seit September 2024) Inhalte dialogisch aufbereiten ( Google Blog 2024).
-
Implementierung der RAG-Technologie
NotebookLM implementiert RAG durch Transformation hochgeladener Dokumente in Vektor-Embeddings, die in einem durchsuchbaren Indexsystem gespeichert werden, anstatt das gesamte Material im Arbeitsspeicher vorzuhalten. Diese Architektur ermöglicht die Verarbeitung umfangreicher Dokumentensammlungen, ohne an Speichergrenzen zu stoßen. Das System nutzt seit Ende Oktober 2024 Geminis erweiterte Kontextfenster-Kapazität von einer Million Token, wodurch extensive Konversationen bei gleichzeitigem Zugriff auf multiple Quellen möglich werden (Testing Catalog 2024; Google Cloud 2024).
Eine radiologische Studie demonstriert das Potential dieses Ansatzes eindrucksvoll: Tozuka et al. (2024) testeten NotebookLM an 100 fiktiven Lungenkrebsfällen für TNM-Klassifikationen basierend auf CT-Befunden. NotebookLM erreichte dabei 86% diagnostische Genauigkeit mit zuverlässiger externer Wissensbasis – verglichen mit lediglich 39% für GPT-4o, das dieselbe Wissensbasis ohne RAG-Architektur nutzte, und 25% für GPT-4o ohne externe Wissensbasis. Diese empirischen Befunde zeigen, wie source-grounding durch RAG-Technologie Ausgaben systematisch an verifizierbare Quellen bindet und die diagnostische Leistung gegenüber herkömmlichem Prompt-Engineering substantiell steigert.
Für Historiker*innen ist besonders relevant: Google garantiert explizit, dass Nutzerdaten nicht zum Training neuer Modelle verwendet werden und bei Workspace-Nutzer*innen innerhalb organisatorischer Vertrauensgrenzen bleiben ( Google 2023; Google Workspace Updates 2025).
-
Relevanz für Geschichtswissenschaft: Stärken und Schwächen
Die Stärken von NotebookLM für geschichtswissenschaftliche Arbeit liegen in der Möglichkeit zur systematischen Analyse von Quellen: Forschende können natürlichsprachliche Fragen an Quellenkorpora stellen und erhalten zitierte Antworten. Die Zeitleisten-Funktion organisiert Ereignisse chronologisch, die Source-Toggle-Funktion ermöglicht Vergleich spezifischer Quellenteilmengen (z.B. verschiedene Perspektiven auf dasselbe Ereignis), und Multilingualität (35+ Sprachen) erleichtert Arbeit mit fremdsprachigen Quellen ( Elite Cloud 2024).
Jedoch zeigen sich erhebliche Einschränkungen, die für geschichtswissenschaftliche Forschung relevant sind:
- Safety-Filter blockieren automatisch Inhalte zu Gewalt, Sexualität oder Obszönität, selbst in historischen Kontexten ( Google Support 2024). Dies erweist sich als problematisch für Historikerinnen, die mit Quellen zu Krieg, Genozid, sexueller Gewalt oder anderen expliziten historischen Materialien arbeiten.
- Obwohl das source-grounding-Prinzip das Risiko von Halluzinationen reduziert, betont Google selbst die Notwendigkeit, KI-Antworten stets gegen das Originalmaterial zu überprüfen ( Google 2024).
- Audio Overviews, eine der prominenten Funktionen von NotebookLM, können für akademische Forschung zu oberflächlich ausfallen und spezifische nischenbezogene Themen übersehen, die für spezialisierte Forschung relevant wären ( Effortless Academic 2024).
-
Eine akademische Evaluation zu NotebookLM betont, dass der Nutzen des Tools erheblich von der Qualität des hochgeladenen Quellmaterials und der Vertrautheit des Forschenden mit Prompt-Engineering abhängt ( Jeon et al. 2025).
-
Das Tool behandelt alle hochgeladenen Quellen gleichwertig und kann historische Quellenkredibilität, Bias oder methodische Verlässlichkeit nicht selbständig bewerten. Diese Quellenkritik – ein Kernbestandteil geschichtswissenschaftlicher Methodik – bleibt Aufgabe der Forschenden und muss vor dem Upload erfolgen.
Methodisch-erkenntnistheoretische Bewertung: Kann KI Geschichte verstehen?
-
Epistemologische Herausforderungen
Die zentrale erkenntnistheoretische Frage lautet: Kann ein statistisches Sprachmodell historisches Verstehen leisten? Joshua Sternfeld führt das Konzept des AI-as-Historian ein und beschreibt, wie KI-Systeme historiografische Funktionen ausführen: Sie sammeln, klassifizieren, analysieren und interpretieren historische Daten. Diese komplexe Reihe von Aktivitäten setzt nach Sternfeld historisches Bewusstsein voraus, das auf Erinnerung, kritische Analyse, Datenkontextualisierung und eine Kausalitätstheorie zurückgreift ( Sternfeld 2023). Daraus ergibt sich allerdings ein grundsätzliches Problem: Wenn KI geschichtswissenschaftlich arbeitet, definiert sie die Vergangenheit – mit welcher Autorität und nach welchen Kriterien?
Matthew L. Jones verweist in diesem Zusammenhang auf den epistemologischen Wandel beim Einsatz von KI: Der Fokus verschiebt sich von klassischer Berechnung hin zum induktiven Lernen von Konzepten, Regeln und Strategien aus Beispielen. Dieser datengetriebene Ansatz beruht nach Jones auf der unvernünftigen Effektivität von Daten und widerspricht damit traditioneller historischer Methodik ( Jones 2023). Geschichte lässt sich nicht durch Pattern-Matching aus Datenmengen erfassen – sie erfordert Interpretation, Kontextualisierung und das Verstehen dessen, was nicht gesagt wurde.
In ähnlicher Weise warnt Jörg Wettlaufer in seinem Aufsatz in der Zeitschrift für digitale Geisteswissenschaften, dass computationale Ansätze Gefahr laufen, die Ebene des Sinns, die Latenz und den Bedeutungswandel von Begriffen zu verfehlen. Er betont, dass Bedeutung nur existiert und abhängig ist von der menschlichen Existenz ( Wettlaufer 2016). Kann ein statistisches Modell, das Wortsequenz-Wahrscheinlichkeiten berechnet, also semantisches Verstehen historischer Kontexte leisten? Die Antwort aus der Geschichtswissenschaft tendiert zu: nein – oder nur sehr begrenzt.
-
Das Black-Box-Problem und historische Quellenkritik
RAG-Systeme erzeugen auf zwei Ebenen Intransparenz:
- Erstens bleibt der Retrieval-Prozess intransparent – nach welchen Kriterien werden Textpassagen als relevant eingestuft?
- Zweitens ist der Generierungsprozess undurchsichtig – wie synthetisiert das Modell gefundene Passagen? Von Eschenbach argumentiert: „Ohne zu verstehen, wie KI zu ihren Schlussfolgerungen gelangt, ist es eine offene Frage, inwieweit wir diesen Systemen vertrauen können" ( Von Eschenbach 2021, S. 1607).
Für die historische Quellenkritik ist dies durchaus problematisch.
Andreas Fickers' Konzept der „digitalen Quellenkritik", das gleichwohl aus dem prä-KI-Zeitraum stammt, verlangt Antworten auf folgende Fragen an das Material:
- Woher kommt es?
- Wer hat es gesammelt?
- Wann?
- Wie wurde es gesammelt?
- Warum wurde es gesammelt?
Diese Fragen lassen sich bei RAG-Systemen nicht vollständig beantworten. RAG-Systeme bringe daher ein grundlegendes methodisches Problem mit sich:
Sie können Textpassagen abrufen, die faktisch korrekt sind, deren Bedeutung sich aber erst aus ihrem spezifischen Entstehungs- und Argumentationskontext erschließt. Das System extrahiert isolierte Aussagen aus komplexen historiografischen Texten, ohne die argumentative Einbettung, die Positionierung des Autors in Forschungsdebatten oder die zeitliche Schichtung der Aussage zu berücksichtigen. Diese algorithmische Dekontextualisierung steht den Grundprinzipien historischer Quellenkritik diametral entgegen . Denn gerade das Verstehen von Aussagen in ihrem mehrfachen Kontext (Entstehungskontext, Überlieferungskontext, Interpretationskontext) bildet das Fundament geschichtswissenschaftlicher Methodik ( Fickers 2012).
-
Halluzinationen, Bias und Zitationspraxis
Trotz source-grounding bleiben Halluzinationen ein Problem. Adina Langer dokumentiert, wie ChatGPT hartnäckig ein Zitat Anne Frank zuschrieb, das von ihr nicht stammte, und „zwischen Anne Frank und Anne Hillman hin und her wechselte", selbst nach Korrektur ( Langer 2023). Stanford-Studien zu juristischen LLMs fanden Halluzinationsraten von 69-88%, besonders bei Quellen niederer Gerichte und älterer Rechtsprechung ( Dahl et al. 2023). Diese Fehleranfälligkeit ist für geschichtswissenschaftliche Forschung, bei der Zitatgenauigkeit konstitutiv ist, inakzeptabel.
Die im Trainingsmaterial enthaltenen Biases reproduzieren historische Ungerechtigkeiten und können marginalisierte Gruppen systematisch benachteiligen. Algorithmen trainiert auf historischen Daten übernehmen und verstärken bestehende gesellschaftliche Vorurteile. Dies zeigt sich paradigmatisch am Amazon-Rekrutierungsalgorithmus, der zwischen 2014 und 2017 entwickelt wurde: Das System wurde auf Basis von Lebensläufen trainiert, die über ein Jahrzehnt hinweg bei Amazon eingereicht worden waren und überwiegend von Männern stammten. Der Algorithmus lernte, männliche Kandidaten zu bevorzugen und stufte Lebensläufe mit dem Begriff "women's" (etwa in "women's chess club captain") sowie Absolventinnen von Frauenuniversitäten systematisch herab ( Dastin 2018). Trotz mehrfacher Anpassungen konnte Amazon nicht garantieren, dass das System in allen Bereichen geschlechtsneutral agieren würde, und stellte das Projekt 2017 ein ( ACLU 2018).
Ein zweites Beispiel für systematische algorithmische Diskriminierung bietet das COMPAS-System (Correctional Offender Management Profiling for Alternative Sanctions), das in US-Gerichten zur Einschätzung der Rückfallgefahr von Angeklagten eingesetzt wird. Eine Untersuchung von ProPublica (2016) mit über 10.000 Angeklagten in Broward County, Florida, ergab, dass das System schwarze Angeklagte fast doppelt so häufig fälschlicherweise als hochriskant einstufte wie weiße Angeklagte. Umgekehrt wurden weiße Angeklagte häufiger fälschlicherweise als risikoarm klassifiziert ( Angwin et al. 2016). Die Debatte um COMPAS verdeutlicht grundsätzliche mathematische Probleme der Fairness-Definition: Unterschiedliche Fairness-Kriterien sind mathematisch inkompatibel, sodass die Wahl eines Kriteriums zwangsläufig andere ausschließt ( Chouldechova 2017).
Im geschichtswissenschaftlichen Kontext könnten vergleichbare Biases die Geschichte marginalisierter Gruppen systematisch ausschließen oder verzerrt darstellen. Kate Crawford betont in "Atlas of AI" (2021), dass Bias in Large Language Models daraus resultiert, dass die Modelle auf umfangreichen, ungefilterten Internetdaten trainiert werden, die große Mengen problematischen Materials enthalten. Diese Trainingsdaten spiegeln nicht nur bestehende gesellschaftliche Vorurteile wider, sondern verstärken sie aktiv ( Crawford 2021). Neuere Forschung zeigt, dass selbst LLMs, die explizite Bias-Tests bestehen, weiterhin implizite Vorurteile aufweisen, die marginalisierte Gruppen benachteiligen ( Cheng et al. 2025). Die unterproportionale Repräsentation marginalisierter Gruppen in Trainingsdaten führt zu Misrepräsentation, stereotyper Darstellung und ungleicher Systemleistung ( Gallegos et al. 2024).
Auch die Zitationsproblematik bei Large Language Models ist besonders gravierend. Eine wissenschaftliche Studie von Walters und Wilder (2023) dokumentierte systematisch das Ausmaß der Problematik: Die Forschenden verwendeten ChatGPT-3.5 und ChatGPT-4, um 84 kurze Literaturübersichten zu 42 multidisziplinären Themen zu erstellen. Von den insgesamt 636 Zitationen waren bei ChatGPT-3.5 55 Prozent vollständig erfunden, bei ChatGPT-4 immerhin noch 18 Prozent. Von den nicht erfundenen Zitationen wiesen bei GPT-3.5 43 Prozent, bei GPT-4 24 Prozent substanzielle Fehler auf (falsche Autorennamen, Artikeltitel, Erscheinungsjahre, Zeitschriftentitel oder Seitenzahlen) ( Walters/Wilder 2023). Das Problem resultiert aus der fundamentalen Funktionsweise von LLMs: ChatGPT ist ein Sprachverarbeitungs-, kein Informationsverarbeitungswerkzeug. Es imitiert Texte basierend auf statistischen Mustern und behandelt bibliografische Angaben wie jeden anderen Text, ohne zwischen korrekten und falschen Informationen unterscheiden zu können (Walters/Wilder 2023).
Die Northwestern University warnt in ihren Forschungsleitlinien explizit vor dieser Problematik: KI-generierte Inhalte können Ungenauigkeiten in verschiedenen Formen enthalten, von Fehlinformationen über fehlende Informationen bis hin zu fabrizierten Inhalten, einschließlich falscher Zitationen und nicht existierender Quellen ( Northwestern University 2024). Eine aktuelle Studie des Tow Center for Digital Journalism der Columbia University (2025) bestätigte, dass das Problem nicht auf ChatGPT beschränkt ist, sondern die gesamte KI-Branche betrifft: In 200 Tests mit acht verschiedenen KI-Suchmaschinen produzierten diese in über 60 Prozent der Fälle keine korrekten Zitationen ( Jaźwińska/Chandrasekar 2025).
Die Systeme selbst können ihre Limitationen nicht zuverlässig transparent machen. LLMs sind grundsätzlich nicht in der Lage, Quellen korrekt zu zitieren, da sie externe Materialien nicht als diskrete Quellen erfassen, sondern als Muster in ihren Trainingsdaten verarbeiten ( USC Graduate Writing Coach 2024). Dies stellt Forschende vor erhebliche Herausforderungen bei der Quellenverifikation und gefährdet die wissenschaftliche Integrität historischer Forschung.
-
Historiografische Reflexivität und das Problem der Fragestellung
Lucas Poy verweist auf einen weiteren zentralen Kritikpunkt: KI-Systeme seien brilliant im Beantworten von Fragen, aber schlecht im Generieren neuer Fragen ( Poy 2025). Geschichtswissenschaftliche Forschung beginnt jedoch mit Fragen – oft solchen, die erst durch Quellenlektüre entstehen. Poy warnt, dass selbst wenn eine KI die Hauptidee eines Buches oder Kapitels recht adäquat erfassen kann, ihr doch das Entdecken einer zufälligen Fußnote nicht gelingt, die der Untersuchung eine neue Welt aufschließt. Das tiefe Verstehen, wie Forschende Argumente aufbauen, das nur durch Praxis erlernt wird, bleibe einer KI unmöglich (Poy 2025).
Die American Historical Association betont in ihrer Handreichung, dass KI keine neuen historischen Argumente, kreative Neuformulierungen, unveröffentlichte Materialien oder originale Narrative generieren kann, die etablierte Verständnisse herausfordern ( AHA 2025). Die historiografische Reflexivität – das kritische Bewusstsein über Geschichtsschreibung selbst, über Perspektivität und Positionierung – bleibt KI-Systemen verschlossen. Steven Lubar testete KI bei der Bearbeitung einer ganzen Reihe historischer Aufgaben und stellte fest, dass die Ergebnisse bescheidene historiographische Qualität aufweisen ( Lubar 2024).
RAG im Kontext der Digital Humanities: Vergleich und Positionierung
-
Etablierte digitale Methoden in der Geschichtswissenschaft
Die Digital Humanities haben seit Roberto Busas Index Thomisticus (1949-2000) ein reiches Methodenrepertoire entwickelt, darunter beispielsweise:
- Distant Reading ( Franco Moretti 2000) ermöglicht Analyse tausender Texte jenseits menschlicher Close-Reading-Kapazität ( Underwood 2020).
- Korpuslinguistik nutzt seit den 1960er Jahren theorieneutrale, korpusbasierte empirische Methoden mit Konkordanzwerkzeugen und statistischer Software ( Jensen 2014).
- Text Encoding Initiative (TEI) etablierte sich seit 1987 als Standard für maschinenlesbare Textrepräsentation. Diese Innovation ist für Susan Hockey der bedeutendste DH-Beitrag zur geschichtswissenschaftlichen Methodik überhaupt ( Hockey 2004).
- Historische Netzwerkanalyse verwendet Graphentheorie zur Identifikation zentraler Akteure und Netzwerkdichten, etwa im Stanford-Projekt „Republic of Letters" (Graham, Milligan und Weingart 2015).
- Handwritten Text Recognition (HTR) erreicht mit Hidden-Markov-Modellen über 90% Erkennungsraten bei historischen Manuskripten ( Mühlberger et al. 2015).
- Semantic Technologies analysieren diachrone semantische Verschiebungen (Computational Historical Semantics) und verbinden historische Ressourcen durch Linked Data.
Diese Ansätze teilen grundlegende Eigenschaften: Transparenz der algorithmischen Schritte, Reproduzierbarkeit durch dokumentierte Workflows, und hermeneutische Komplementarität. Sie ergänzen, ersetzen aber nicht traditionelle Interpretation.
-
RAG versus traditionelle DH-Werkzeuge: Fundamentale Differenzen
Der Vergleich zwischen RAG und etablierten DH-Methoden offenbart gravierende Unterschiede.
- Korpuslinguistik arbeitet mit menschlich produzierten Texten – essentiell für das Studium menschlicher grammatischer Phänomene. Sie fokussiert auf Regularitäten UND Besonderheiten.
- LLMs/RAG produzieren dagegen „Durchschnittssprache" – Ausdrücke, abstrahiert aus Millionen Quellen, die Idiosynkrasien durch den Trainingsprozess glätten ( Corpling Hypotheses 2024).
Eine korpuslinguistische Untersuchung von ChatGPT 3.5 zeigte bemerkenswerte Diskrepanzen: Während bei Frequenzlisten eine Übereinstimmung von 75 Prozent mit dem Corpus of Contemporary American English erreicht wurde, brach die Genauigkeit bei Kollokationsanalysen auf 42,8 Prozent und bei grammatischen Mustern auf 53 Prozent ein ( Uchida 2024). Die Studie schlussfolgert, dass diese Werkzeuge für grundlegende Trendanalysen geeignet sein mögen, für präzise akademische Forschung jedoch unzureichend bleiben.
Verschärfend wirkt die Problematik der Datenkontamination: KI-generierte Inhalte infiltrieren zunehmend die Trainingskorpora nachfolgender Modelle. Dieser sich selbst verstärkende Zyklus wird in der Forschung als Model Autophagy Disorder oder Model Collapse bezeichnet ( Alemohammad et al. 2023; Shumailov et al. 2024). Studien belegen, dass synthetische Daten ohne ausreichenden Zufluss originaler menschlicher Daten zu progressiver Degradierung von Qualität und Diversität führen.
Wettlaufer (2016) differenziert zwischen informationszentrierten Fächern wie der Geschichte und anderen Geisteswissenschaften und betont, dass diese spezifische Werkzeuge erfordern, die sich nur partiell mit generischen Digital-Humanities-Instrumenten überschneiden. Er führt das Konzept der hermeneutischen Reichweite ein: die Fähigkeit, durch digitale Methoden ein vertieftes Textverständnis zu erreichen, das ohne diese nicht möglich wäre. Überträgt man dies auf RAG-Systeme, lässt sich argumentieren, dass diese hermeneutische Reichweite für Überblicksdarstellungen und Musteridentifikation entfalten können. Für interpretative Tiefenarbeit – kontextbezogene Bedeutungszuweisung, kritische Quellenanalyse und historische Hermeneutik – stoßen sie jedoch an die von Wettlaufer identifizierten strukturellen Grenzen digitaler Methoden.
-
Methodologische Standards und Evaluationskriterien
Die DH-Community hat Evaluationskriterien entwickelt, die auf RAG-Systeme anwendbar sind. Die IDE-Kriterien für digitale editorische Werkzeuge ( i-d-e.de 2016) verlangen:
- Disziplin und Methodologie: Welchen wissenschaftlichen Ansatz ermöglicht das Tool?
- Kenntnis der Funktionsweise: Architekturüberblick, Algorithmus-Flussdiagramme?
- Transparenz der Funktionsweise: Programmiersprachen, wiederverwendete Komponenten?
- Reflexion der Leistungen und des wissenschaftlichen Beitrags: Methodologische Wirkung?
- Reflexion der Limitationen und Offenheit für Verbesserungsvorschläge?
RAG-Systeme schneiden bei Transparenz-Kriterien schlecht ab: Closed-Source-Implementierungen, undokumentierte Retrieval-Algorithmen, Black-Box-Generation. Besonders problematisch ist dies im Hinblick auf methodische Standards der Digital Humanities, wie sie etwa in den ADHO-Konferenz-Review-Kriterien zum Ausdruck kommen. Das dort formulierte Kriterium der Methodik impliziert die Erwartung, dass digitale Verfahren dem kulturellen, linguistischen und temporalen Kontext des Untersuchungsgegenstands gerecht werden ( Schöch et al. 2023). Gerade hier zeigen Sprachmodelle jedoch begrenzte Sensibilität für historischen Sprachwandel, kulturelle Spezifität oder temporale Kontexte.
Während einerseits die Bedeutung reproduzierbarer und transparent hergeleiteter Forschungsergebnisse in den Digital Humanities wächst, werden mit dem Aufkommen von KI Modellvorhersagen zunehmend undurchsichtig, weshalb Explainable AI (XAI) als Transparenzmechanismus gefordert wird ( Ries et al. 2023). El-Hajj, Eberle und Kolleg*innen demonstrieren am Beispiel des Sphaera-Projekts, dass XAI-Methoden als Partner bei der Untersuchung debattierter Themen in der Wissenschaftsgeschichte fungieren können – jedoch nur mit angemessenen Explainability-Frameworks, die Modellvorhersagen für Geisteswissenschaftler*innen nachvollziehbar machen. Die Nutzung erklärbarer KI zur historischen Erkenntnisgewinnung steckt trotz wachsender Forderungen allerdings noch in den Anfängen ( El-Hajj et al. 2023).
-
Position von RAG in der DH-Landschaft: Komplementarität statt Revolution
Der Konsens in den Digital Humanities tendiert zu hybriden Ansätzen, die quantitative und qualitative Analyseverfahren miteinander verbinden ( Zaagsma 2013; König 2017; Schmale 2015, referiert bei Wettlaufer 2016). Mareike König unterstreicht die Grenzen digitaler Werkzeuge: Diese könnten zwar zur Argumentation beitragen, seien aber nicht in der Lage, eigenständig kohärente historische Argumente zu entwickeln ( König 2017, S. 15). In dieser methodologischen Perspektive lassen sich RAG-Systeme als Suchinstrumente verstehen, die der Generierung von Forschungshypothesen dienen (Thiel 2013, zit. nach Wettlaufer 2016) – nicht jedoch als Ersatz für die hermeneutische Interpretationsarbeit, die das Kerngeschäft historischer Forschung bleibt.
Die DHd-Arbeitsgruppe Digitale Geschichtswissenschaft identifiziert sechs Domänen ( Wettlaufer 2016), in denen digitale Methoden Anwendung finden:
- Digitale Editionen und Nachschlagewerke,
- Digitale Fachinformation und Datenqualität,
- Digitale Fachkommunikation und Vernetzung,
- Digitale Werkzeuge und geschichtswissenschaftliche Methoden,
- Qualifizierungswege sowie virtuelle Forschungsumgebungen
Übertragen auf RAG-Systeme, ergeben sich potenzielle Anwendungsfelder von RAG-gestützten Zugriffssystemen bis zur Integration in bestehende Forschungsinfrastrukturen. Kritische Stimmen wie Andrew Prescott (2023) warnen jedoch, dass KI-Systeme Trainingsdaten-Bias reflektieren können. Prescott argumentiert, dass die DH-Community Transparenz, Accountability und Explainability als zentrale Anforderungen an KI-Werkzeuge etablieren muss, um zu verhindern, dass Bias in historische Forschung einfließt.
Praktische Anwendungsfälle und Workflows in der geschichtswissenschaftlichen Forschung
-
Dokumentierte Anwendungsszenarien
Diese Anwendungsfälle verdeutlichen Potentiale und Risiken der RAG-Anwendung in der Geschichtswissenschaft:
-
Literaturübersicht und -synthese: Benjamin Breen (2025) testete aktuelle LLM-Modelle (GPT-4o, o1, Claude Sonnet 3.5) an verschiedenen historischen Szenarien. Bei der Arbeit mit einem Manuskript medizinischer Rezepte aus den 1770er Jahren aus Mexiko zeigte das System beachtliche Fähigkeiten bei der Transkription und Übersetzung handschriftlicher Dokumente, wenngleich mit einigen Fehlern – etwa bei der Unterscheidung zwischen "explicación phisica" (physische Erklärung) und "poetic explanation". Breen entwickelte spezialisierte GPTs wie "The Historian's Friend", die historische Texte transkribieren, analysieren und in historischen Kontext einordnen können. Die Ergebnisse demonstrieren sowohl die Leistungsfähigkeit als auch die Grenzen solcher Systeme: Während sie bei Transkription, Übersetzung und Bildanalyse überzeugen, tendieren LLMs dazu, "die mediane Sichtweise auf ein gegebenes Thema" zu reproduzieren, was zu vorhersehbaren, wenn auch hochinformierten Analysen führt ( Breen 2025).
Workflow-Beispiel für Literaturübersicht:
-
Upload von 15-20 Schlüsselmonografien als PDFs
-
Query: „Was sind die methodologischen Meinungsverschiedenheiten zwischen diesen Historikern?"
-
Follow-up: „Welche Autoren würden bezüglich Kausalität übereinstimmen?"
-
Request: „Erstelle eine Tabelle, die theoretische Frameworks vergleicht"
-
Verifiziere alle Claims gegen Originalquellen
-
- Primärquellenanalyse: Huffman und Hutson (2024) testeten NotebookLM, ein auf künstlicher Intelligenz basierendes Werkzeug zur Quellenanalyse, an Mary Easton Sibleys 92-seitigem Tagebuch aus dem 19. Jahrhundert. Das System generierte erfolgreich verschiedene Formate der Quellenaufbereitung, darunter FAQs (Frequently Asked Questions), die häufig gestellte Fragen zu den Tagebuchinhalten beantworten, Studienführer zur didaktischen Aufbereitung, Inhaltsverzeichnisse zur Strukturierung des Materials sowie Briefing-Dokumente, die kompakte Zusammenfassungen der wesentlichen Inhalte liefern. Die Zeitleisten-Generierung, also die chronologische Aufbereitung der im Tagebuch dokumentierten Ereignisse, erwies sich jedoch als weniger akkurat und erforderte menschliche Verifikation, um Fehler in der zeitlichen Zuordnung und Sequenzierung zu korrigieren ( Huffman/Hutson 2024).
- Vergleichende Quellenanalyse: Bei der Analyse von Fortune-Magazin-Werbungen aus der April-Ausgabe 1936 demonstrierte GPT-4 bemerkenswerte Fähigkeiten in der Kontextualisierung historischer Quellen. Der Historiker Benjamin Breen testete das System an Anzeigen aus dieser Ausgabe, die ein eindrucksvolles Zeugnis der Depressions-Ära darstellen. GPT-4 identifizierte erfolgreich historische Inhalte und verband diese mit breiteren wirtschaftshistorischen Konzepten wie dem "Wohlfahrtskapitalismus" (welfare capitalism), einem System, bei dem Unternehmen soziale Leistungen für ihre Beschäftigten bereitstellten. Das System konnte einzelne Werbeanzeigen in den Kontext größerer ökonomischer Trends der 1930er Jahre einordnen und bot konkrete Vorschläge zur historischen Argumentation. Besonders beeindruckend war die Fähigkeit, fotografierte Umfragedaten aus dem Magazin zu extrahieren und innerhalb von etwa 30 Sekunden in lesbare Datenvisualisierungen umzuwandeln, etwa eine Darstellung der Zigarettenmarken-Präferenzen der Fortune-Leserschaft oder die Korrelation zwischen politischen Einstellungen zu Franklin D. Roosevelt und Ansichten zu Managergehältern. Allerdings zeigte sich bisher vor allem eine erhebliche Limitation bei der Gesichtserkennung in historischen Fotografien: GPT-4 versagte vollständig bei der Identifikation prominenter Figuren der 1930er Jahre außer FDR und Herbert Hoover. Zudem traten bei der automatischen Datenvisualisierung kleinere, aber potenziell bedeutsame Transkriptionsfehler auf – beispielsweise wurde 4,5% als 4,6% gelesen –, die eine sorgfältige menschliche Nachprüfung aller automatisch generierten Daten erforderlich machen ( Breen 2023).
- Aktuelle Fortschritte bei der KI-gestützten Gesichtserkennung in Holocaust-Fotografien verweise aber auf das Potential der Methode. Die 2016 initiierte Plattform "From Numbers to Names" (N2N) von Daniel Patt nutzt inzwischen künstliche Intelligenz, um Gesichter in über 500.000 historischen Fotografien aus Archiven des United States Holocaust Memorial Museum und Yad Vashem zu identifizieren. Das System ermöglichte dokumentierte Identifikationen wie die der Holocaust-Überlebenden Blanche Fixler in einer ihr zuvor unbekannten Gruppenaufnahme sowie Fotografien der Mutter des Rush-Sängers Geddy Lee aus einem Displaced Persons Camp ( Patt 2022; NPR 2022). Einen methodischen Durchbruch erzielte 2025 der Historiker Jürgen Matthäus vom US Holocaust Memorial Museum bei der Identifikation des Täters auf dem ikonischen Foto "Der letzte Jude von Winniza". In Zusammenarbeit mit dem OSINT-Kollektiv Bellingcat und unter Einsatz der kommerziellen Gesichtserkennungssoftware Amazon Rekognition gelang die Identifikation des SS-Angehörigen Jakobus Onnen mit einer Übereinstimmungsrate von 98 bis 99 Prozent ( Matthäus 2023; Watson 2025). Die Kombination aus traditioneller Archivforschung, digitaler Geolokalisierung durch Luftbildanalyse und KI-Gesichtserkennung markiert einen Wendepunkt in der forensischen Holocaust-Forschung. Todd Presner (2024) diskutiert diese Entwicklungen im Kontext einer "Ethik des Algorithmus", die zwischen den ethischen Anforderungen individueller Zeugnisse und den interpretatorischen Möglichkeiten computationaler Methoden vermitteln soll.
- Übersetzung und Transkription: RAG-Systeme zeigen beeindruckende Leistungen bei der Übersetzung historischer Dokumente in weniger verbreiteten oder unbekannten Sprachen. Breen übersetzte erfolgreich ein katalanisches Drogenhandbuch aus dem 18. Jahrhundert, das er in der Wellcome Library in London fotografiert hatte. Das System lieferte nicht nur Übersetzungen der katalanischen Texte ins Englische, sondern konnte auch komplexe historische Diagramme analysieren und kontextualisieren, etwa die detaillierte Darstellung einer brasilianischen Zuckerraffinerie mit ihren verschiedenen Produktionsstufen (Zuckermühle, Verarbeitungshütte, Lagerhaus). Die zentrale und problematische Limitation liegt jedoch im Bereich der Paläografie, also der Beschäftigung mit alten Handschriften. Bei der Transkription handschriftlicher Dokumente des 18. Jahrhunderts machte GPT-4 nach Breens Beobachtung mehrere Transkriptionsfehler pro Seite. Diese Fehler resultierten häufig daraus, dass das System moderne Orthografie und Schreibkonventionen auf frühneuzeitliche Texte projizierte, etwa indem es historische Buchstabenformen wie das lange "ſ" (langes s) fehlinterpretierte oder den Begriff "sal eſſencial" (essentielles Salz) fälschlicherweise als "Mencíal Salt" transkribierte. In seinen Tests mit einem portugiesisch-brasilianischen medizinischen Traktat von 1749, der Prodigiosa lagoa descuberta nas Congonhas (Wundersame Lagune, entdeckt in Congonhas), zeigte sich ein weiteres grundlegendes Problem: Während die generelle Übersetzung der Krankheitsfälle akkurat war, wurden kulturell spezifische medizinische Fachbegriffe systematisch vereinfacht oder fehlinterpretiert. Der Begriff "quigilia" etwa, eine Hauterkrankung, die nach der Forschung von Júnia Ferreira Furtado ihre Wurzeln in den Kosmologien zentral-westafrikanischer Bevölkerungsgruppen (Jaga, Ambundu, Kimbundu) hat und ursprünglich ein Rechtssystem der Imbangala-Königin Temba-Ndumba im Angola des 17. Jahrhunderts bezeichnete, wurde von GPT-4 schlicht als "Gangrän" übersetzt und damit seiner komplexen transatlantischen Bedeutungsgeschichte beraubt ( Breen 2023). Neuere systematische Studien bestätigen und präzisieren diese Befunde: Humphries und Leddy testeten 2024 verschiedene multimodale Large Language Models (GPT-4o, Claude Sonnet-3.5, Gemini 1.5-Pro) auf ihre Fähigkeit zur Handschriftenerkennung bei historischen englischsprachigen Dokumenten. Ohne vorheriges Training oder Feinabstimmung erreichten die Systeme Character Error Rates (CER, also den Prozentsatz falsch transkribierter Zeichen) zwischen 5,7% und 7% sowie Word Error Rates (WER) zwischen 8,9% und 15,9% – eine deutliche Verbesserung gegenüber älteren HTR-Systemen wie Transkribus (die typischerweise CERs von 8-25% erreichen), aber noch immer erfordern diese Fehlerquoten eine sorgfältige Nachprüfung für wissenschaftliche Anwendungen. Besonders kritisch ist die dokumentierte Tendenz zur "Context Completion": Wenn Textpassagen unleserlich oder beschädigt sind, generieren die Systeme auf Basis des Kontexts plausible Ergänzungen, anstatt die Unleserlichkeit explizit zu markieren. Dies bedeutet, dass Forschende nicht erkennen können, wo das System spekuliert hat. Bei nicht-englischsprachigen historischen Texten, insbesondere solchen in Sprachen mit geringerer Repräsentation im Trainingskorpus, verschlechtert sich die Transkriptionsleistung signifikant, was auf die anglophone Dominanz der Trainingsdaten zurückzuführen ist ( Humphries/Leddy 2024). Diese Beobachtungen sprechen dafür, dass künftig das Trainign spezifischer geschichtswissenschaftlicher KI-Modelle auf Grundlage so genannter "Foundation-Models" stärker Relevanz gewinnen wird (Wolf al. 2025).
-
Lehr- und Lernanwendungen
-
Praxisfall NotebookLM im Geschichtsunterricht: Christian Klee, Geschichtslehrer und Autor des Blogs "Unterrichten Digital", dokumentierte 2024 den Einsatz von NotebookLM für das Thema "Russische Revolutionen 1917" in seinem Leistungskurs. Er lud historische Quellen der Bundeszentrale für politische Bildung, des Deutschen Historischen Museums sowie Lehrwerkstexte bei NotebookLM hoch, das daraus automatisch Podcasts in verschiedenen Sprachen generierte. Die Schülerinnen und Schüler bewerteten den KI-generierten Podcast als ergänzendes Lernmaterial kritisch: Sie lobten die Qualität der Zusammenfassung, kritisierten jedoch die schwere Nachprüfbarkeit historischer Daten, warnten vor möglichen "Halluzinationen" und bemängelten die im Vergleich zum quellenbasierten Unterricht "recht allgemeine, trotz der gegebenen Quellen wenig spezifische Herangehensweise" – typisch für KI-Sprachmodelle, wie die gut informierten Schülerinnen und Schüler des 12. Jahrgangs kommentierten. Insgesamt zeigten sie sich aber "erstaunt und positiv überrascht" und möchten NotebookLM auch in anderen Fächern nutzen. Klee betont, dass bei aller Begeisterung für die technischen Möglichkeiten die eigentlichen didaktischen Fragen nicht aus dem Blick geraten dürfen: Welche Qualität hat das generierte Material? Rechtfertigt die rasche Verfügbarkeit eine eventuell schlechtere Qualität? Und was bedeutet das für die Allgemeinbildung? Die Unterrichts- und Lernzeit bleibe für Schülerinnen und Schüler gleich, während die (multimedialen) Materialberge immer größer werden – bei jedem KI-generierten Material müsse der didaktische Wert klar im Fokus stehen ( Klee 2024).
- Evaluation und kritisches KI-Literacy: Die American Historical Association empfiehlt in ihren 2025 veröffentlichten "Guiding Principles for Artificial Intelligence in History Education" explizit Arbeitsaufträge, bei denen Studierende KI-generierte Artikelzusammenfassungen mit den Originaltexten vergleichen, bewerten, was die KI richtig und falsch macht, evaluieren, ob die KI die wichtigsten Beiträge des Artikels erkannt hat, und fehlende Nuancen identifizieren. Solche Aufgaben helfen Studierenden, analytische Fähigkeiten zu entwickeln und gleichzeitig ein differenziertes Verständnis der Stärken und Schwächen generativer KI zu gewinnen. Der Ansatz fördert zudem eine vertiefte Auseinandersetzung mit dem Originalartikel und kultiviert sowohl historisches Denken als auch kritisches KI-Literacy, statt KI-Werkzeuge schlicht zu verbieten oder zu vermeiden ( AHA 2025).
-
-
Best Practices und Verantwortungsvolle Nutzung
Die AHA Guiding Principles (2025) formulieren Kernprinzipien:
- Historisches Denken bleibt essentiell: „KI produziert Texte, Bilder, Audio und Video, nicht Wahrheiten"
- Grenzen erkennen: KI „halluziniert regelmäßig Inhalte, Referenzen, Quellen und Zitate"
- KI-Kompetenz kultivieren: „KI-Verbote sind keine langfristige Lösung"
- Expertise bewahren: „Das Evaluieren KI-generierter Inhalte erfordert Expertise, die nur durch anhaltende Beschäftigung aufgebaut werden kann"
- Experimentieren und überarbeiten: „Keine einzelne generative KI-Richtlinie wird perfekt sein"
Verifizierungs-Framework:
- Immer verifizieren: Zitate (KI paraphrasiert oder misszitiert), Literaturangaben (KI erfindet nicht-existente Quellen), Daten und Zahlen, Eigennamen und Fachbegriffe, Kausalbehauptungen
- Warnzeichen: Übergroße Selbstsicherheit bei unsicheren Sachverhalten, fehlender historiografischer Kontext, simplifizierte Kausalität, Abwesenheit disziplinärer Debatte, zu perfekte narrative Kohärenz
Lucas Poy betont eine wesentliche Gefahr beim unreflektierten Einsatz von KI-Zusammenfassungen: Selbst wenn diese die Hauptthesen eines Werkes erfassen, entgehe Forschenden die Möglichkeit, auf eine Fußnote zu stoßen, die eine neue Forschungsperspektive eröffnet. Ebenso gingen das tiefe Verständnis für wissenschaftliche Argumentationsstrukturen, die historiografische Sensibilität für langfristige Debattenentwicklungen und die Fähigkeit verloren, unterschiedliche Autorinnen und Autoren an ihrem Stil zu erkennen. Diese Form der Serendipität – das produktive Entdecken des Unerwarteten – sei für historische Forschung konstitutiv ( Poy 2025).
Es gilt also stets zu entscheiden, wann eine KI-generierte Zusammenfassung ausreichend ist, um eine Publikation zu überblicken, und wann es geboten ist, Literatur eigenständig zu bearbeiten.
Was RAG-Systeme NICHT können:
- Genuin neue historische Fragen generieren
- Schweigen identifizieren
- Originale Interpretation durchführen
- Auf nicht-digitalisierte Materialien zugreifen
- Mit neuen historischen Argumenten überraschen
- Disziplinäre Debatten erkennen
Potentiale und kritische Grenzen für die Geschichtswissenschaft
-
Potentiale: Wo RAG-Systeme unterstützen können
Effizienzgewinne bei spezifischen Aufgaben: Mark Humphries von der Wilfrid Laurier University nutzt KI zur Analyse umfangreicher handschriftlicher Aufzeichnungen aus dem kanadischen Pelzhandel des späten 18. und frühen 19. Jahrhunderts. In einem Projekt analysierten er und seine Studierenden Zehntausende digitalisierter Dokumente, um die weitverzweigte Gemeinschaft der Pelzhändler (die sogenannten "Voyageurs") besser zu verstehen, die mit ihren Familien große Teile des späteren Kanada erkundeten und besiedelten. Humphries beschreibt die Möglichkeiten von Large Language Models so: Wenn man diese Aufzeichnungen an ein Sprachmodell übergebe und frage "Wer waren Alexander Henrys Handelspartner?", könne das System nicht nur nach Namen suchen, sondern Querverweise herstellen und Beziehungen identifizieren. Diese Vernetzungsanalyse, die über einzelne Transaktionen zwischen bestimmten Händlern hinausgeht und komplexe Beziehungsketten sichtbar macht, benötige mit KI etwa 20 Sekunden – eine Aufgabe, für die ein Masterstudierender manuell Wochen benötigen würde. Forschende gewinnen so Zeit für die eigentliche analytische und interpretative Arbeit ( Wasik 2025).
Zugänglichkeit und Inklusion: Audio Overviews ermöglichen barrierefreien Zugang zu Texten. Multilingualität erleichtert die Arbeit mit fremdsprachigen Quellen – besonders wertvoll für Historikerinnen, die außerhalb ihrer Sprachkompetenz recherchieren müssen. Lucas Poy betont, dass KI-Werkzeuge es ermöglichen, mit Texten in unbekannten Sprachen zu arbeiten und Verbindungen über dutzende Werke gleichzeitig zu finden ( Poy 2025).
Exploratives Tool für Hypothesengenerierung: RAG-Systeme sind besonders leistungsfähig beim Identifizieren von Mustern, die eine genauere Untersuchung verdienen. Als Vermutungsmaschinen können sie Forschende auf Zusammenhänge hinweisen, die weiterführende Analysen lohnen. Benjamin Breen betont in seiner Auseinandersetzung mit KI-Werkzeugen für die historische Forschung, dass selbst Fehler von KI-Systemen epistemisch produktiv sein können, indem sie Forschende auf unerwartete Verbindungen aufmerksam machen ( Breen 2024). Fehler können somit als Ausgangspunkt für neue Forschungsfragen dienen.
Lehrmaterialerstellung und Wissenschaftskommunikation: RAG-Systeme können Forschungsmaterialien in zugängliche Lernressourcen transformieren – Studienführer, Glossare, Diskussionsprompts. Dies spart Lehrenden Zeit für inhaltliche Vertiefung statt Materialproduktion.
-
Kritische Grenzen: Fundamentale Limitationen
Epistemologische Inkompatibilität: KIs datengetriebener, mustererkennender Ansatz konfligiert fundamental mit hermeneutischer historischer Methode. Geschichtswissenschaft ist keine Pattern-Matching-Übung, sondern interpretative Praxis, die Kontextualisierung, Empathie und kritisches Bewusstsein verlangt. Jones' Beobachtung bleibt zentral: Wissenschaften, die sich mit menschlichen Wesen befassen, hätten sich gegenüber eleganter Mathematisierung als weit resistenter erwiesen als solche, die sich mit elementaren Partikeln beschäftigen ( Jones 2023).
Das Lese-Krise-Risiko: Poy identifiziert eine fundamentale Gefahr: Studierende können nun Texte vermeintlich verstehen, ohne sie zu lesen. Das tiefe Verstehen, wie Forschende Argumente aufbauen, entwickelt sich nach Poy nur durch praktische Auseinandersetzung ( Poy 2025). Die Gefahr besteht darin, dass Studierende zu Konsumenten von Wissen werden statt zu Wissensproduzenten. RAG-Systeme könnten paradoxerweise historische Kompetenzbildung untergraben, während sie Effizienz versprechen.
Bias-Amplifikation und Repräsentationsfragen: Crawford (2021) und Kalluri (2020) betonen Machtfragen: Wessen Geschichte wird sichtbar? Training-Data-Biases bestimmen, welche Geschichten RAG-Systeme zugänglich machen und welche marginalisiert bleiben. Prescott dokumentiert: COMPAS zeigte rassistischen Bias, Amazon-Rekrutierung benachteiligte Frauen ( Prescott 2023). Im historischen Kontext könnten ähnliche Biases systematisch marginalisierte Gruppengeschichten ausschließen.
Model Collapse und die Zukunft des historischen Archivs: Im Diskurs über KI wird immer wieder auf die Gefahr des „Model Collapse" verwiesen: Zukünftige KI-Modelle, trainiert auf KI-generierte Inhalte ihrer Vorgänger, drohen in eine rekursive Schleife selbstreferentieller Imitation einzutreten. Dies schafft das Risiko einer digitalen Welt, in der menschliche Geschichte für alle praktischen Zwecke um 2023 stoppt. Die „Dead Internet Theory" beschreibt dieses Problem: Wie werden zukünftige Generationen unsere Ära studieren, wenn die digitale Aufzeichnung eine unentwirrbare Masse synthetischen Inhalts geworden ist?
Umweltkosten und ethische Verantwortung: LLarge Language Models erfordern substantielle Energie für Training und Betrieb. Bender et al. haben in einer wegweisenden Studie zu den Gefahren großer Sprachmodelle auf die erheblichen Umwelt- und Finanzkosten dieser Technologie hingewiesen ( Bender et al. 2021). Forschende müssen Nutzen gegen Ressourcenverbrauch abwägen – besonders bei extensivem Einsatz.
Grenzen der Zitationspraxis: Selbst bei bestem source-grounding bleiben Zitationsprobleme. NotebookLM zitiert korrekt dass eine Information aus einer Quelle stammt, aber kontextuelle Nuancen, rhetorische Positionierung des Autors, und historiografische Debatten gehen verloren. Geschichte ist nicht Informationsextraktion, sondern Interpretation argumentativer Diskurse.
-
Augmentation versus Automation: Das Verhältnis bestimmen
Ein praktikables Leitprinzip formuliert Benjamin Breen prägnant: „Augmentation, nicht Automation" ( Breen 2024) – KI soll mit Historikerinnen arbeiten, nicht an ihrer Stelle. Steven Lubar konkretisiert diese Komplementarität mit der Feststellung, dass KI-Systeme als Werkzeuge zu verstehen sind, die gezielter Fähigkeiten im Umgang mit ihnen bedürfen. Sie erfordern den Einsatz fachlicher Expertise und arbeiten unterstützend mit Forschenden zusammen, anstatt deren Aufgaben zu übernehmen ( Lubar 2024). Die American Historical Association unterstreicht, dass es keine Abkürzungen zu fachlicher Kompetenz gibt ( AHA 2025). RAG-Systeme entfalten ihr Potential nur dort, wo Forschende mit tiefem Fachwissen, methodischem Training und kritischem Urteilsvermögen ihre Outputs evaluieren können. Die Zielsetzung bleibt damit Verstärkung menschlicher analytischer Fähigkeiten, nicht deren Ersetzung durch algorithmische Prozesse.
Stephen Jackson mahnt entsprechend zu Vorsicht und Geduld als beste Strategien und betont, dass Historikerinnen wachsam bleiben sollten, bis die Probleme und Möglichkeiten generativer KI besser verstanden sind ( Jackson 2023). Die Geschichtswissenschaft sollte experimentieren – aber stets mit der kritischen Distanz und methodologischen Reflexivität, die ihre disziplinäre Identität ausmachen.
Befund: Kritische Integration statt unkritischer Adoption
- RAG-Systeme wie NotebookLM repräsentieren einen bedeutsamen technologischen Fortschritt für quellenbasierte Arbeit. Ihre Fähigkeit, massive Dokumentenmengen zu indexieren, semantische Suchen durchzuführen und zitierte Antworten zu generieren, bietet genuine Potentiale für geschichtswissenschaftliche Forschung – besonders für Literaturübersicht, Mustererkennung, Übersetzung und Lehrmaterialerstellung.
- Jedoch dürfen diese Werkzeuge weder die hermeneutische Tiefenarbeit noch das kritische historiografische Denken ersetzen. Die erkenntnistheoretischen Grenzen sind fundamental: RAG-Systeme können keine neuen historischen Fragen generieren, Schweigen in Quellen nicht erkennen, historiografische Debatten nicht adäquat erfassen und originale Interpretationen nicht leisten. Sie bleiben statistische Sprachmodelle, sie sind keine Historiker*innen.
Drei zentrale Empfehlungen für verantwortungsvollen Einsatz:
-
Transparenz und Verifikation: Jede Nutzung von RAG-Systemen muss explizit dokumentiert werden. Alle KI-generierten Claims müssen gegen Originalquellen verifiziert werden. Zitate, Daten und Kausalaussagen erfordern besondere Vorsicht. Die Geschichtswissenschaft darf ihre Standards für Quellenkritik nicht den Bequemlichkeiten der Technologie opfern.
-
Kompetenzorientierte Integration: RAG-Werkzeuge sollten in Kontexten eingesetzt werden, wo Forschende bereits Expertise besitzen, um Outputs zu evaluieren. In der Lehre bedeutet dies: Nicht KI als Ersatz für Lektüre, sondern als Mittel zur Kultivierung kritischen KI-Literacy. Assignments sollten darauf zielen, dass Studierende verstehen, was KI nicht kann – originale Interpretation, kreative Synthese, Identifikation von Schweigen.
-
Methodologische Reflexion: Die Geschichtswissenschaft muss kontinuierlich reflektieren, wie digitale Werkzeuge die disziplinäre Praxis transformieren. Wettlaufers Konzept der „hermeneutischen Reichweite" bietet einen Rahmen: Tools müssen danach bewertet werden, ob sie historisches Verstehen verbessern – nicht nur ob sie Effizienz steigern. Die DH-Community hat Evaluationskriterien entwickelt (Transparenz, Reproduzierbarkeit, kontextuelle Bewusstheit), die auf RAG-Systeme anzuwenden sind ( Haibe-Kains et al. 2020; Oberle et al. 2023).
Die Zukunft liegt weder in blinder Technologieablehnung noch in unkritischer Adoption, sondern in kritischer Integration. Die Geschichtswissenschaft mit ihrer starken hermeneutischen Tradition und die internationale DH-Community mit ihrem Engagement für Methoden-Reflexion ist gut positioniert, diesen Weg wissenschaftsförmig zu beschreiten. RAG-Systeme können wertvolle Hilfsinstrumente sein – aber die Frage „Was ist Geschichte?" und „Wie betreiben wir Geschichtswissenschaft?" bleibt genuin menschlichen Forscherinnen und Forschern vorbehalten.
GKI und RAG verändert nicht, was Geschichte ist. Neue Technologien stellen uns vor die Aufgabe, klarer zu artikulieren, was historische Kompetenz ausmacht – und diese Kompetenz bewusst zu kultivieren in einer Welt, wo KI-Systeme schnelle, scheinbar autoritative Antworten liefern. Die Geschichtswissenschaft bleibt ein genuin hermeneutisches, interpretatives, kritisches und menschliches Unterfangen ( Meadows und Sternfeld 2023).
Literaturverzeichnis
Literaturverzeichnis
ACLU (American Civil Liberties Union) (2018). Why Amazon's Automated Hiring Tool Discriminated Against Women. Verfügbar unter: www.aclu.org/news/womens-rights/why-amazons-automated-hiring-tool-discriminated-against (Zugriff: 1. November 2025).
Alemohammad, S. et al. (2023). Self-Consuming Generative Models Go MAD. Stanford University/Rice University. arXiv preprint 2307.01850.
Angwin, J., Larson, J., Mattu, S. und Kirchner, L. (2016). Machine Bias. Risk Assessments in Criminal Sentencing. ProPublica, 23. Mai 2016. Verfügbar unter: www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing (Zugriff: 1. November 2025).
American Historical Association Ad Hoc Committee on AI in History Education (2025). Guiding Principles for Artificial Intelligence in History Education. Genehmigt vom AHA Council, 29. Juli 2025. Verfügbar unter: www.historians.org/resource/guiding-principles-for-artificial-intelligence-in-history-education/ (Zugriff: 1. November 2025).
Applied AI Tools (2025). Learn NotebookLM For Beginners - 2025 Guide With FAQs Solved And Real Examples. Verfügbar unter: appliedai.tools/ai-for-productivity/learn-notebooklm-for-beginners-2025-guide-faqs-solved-real-examples/ (Zugriff: 31. Oktober 2025).
AWS (2025). What is RAG? - Retrieval-Augmented Generation AI Explained. Verfügbar unter: aws.amazon.com/what-is/retrieval-augmented-generation/ (Zugriff: 31. Oktober 2025).
Bender, E. M., Gebru, T., McMillan-Major, A. und Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21), S. 610–623. doi.org/10.1145/3442188.3445922
Bode, K. (2020). Why you can't model away bias. Modern Language Quarterly, 81(1), S. 95–124. doi.org/10.1215/00267929-7933102
Breen, B. (2023). How to use generative AI for historical research. Res Obscura [Substack], 14. November 2023. Verfügbar unter: resobscura.substack.com/p/generative-ai-for-historical-research (Zugriff: 1. November 2025).
Breen, B. (2025). The leading AI models are now good historians ... in specific domains. Three case studies with GPT-4o, o1, and Claude Sonnet 3.5, and what they mean. Res Obscura [Substack], 22. Januar 2025. Verfügbar unter: resobscura.substack.com/p/the-leading-ai-models-are-now-very
Busa, R. (1949–1980). Index Thomisticus. 56 Bände. Stuttgart 1974–1980. [Projekt begann 1949, erste gedruckte Bände ab 1974]
Cheng, M., Durmus, E. und Jurafsky, D. (2025). Explicitly unbiased large language models still form biased associations. Proceedings of the National Academy of Sciences, 122(8). doi.org/10.1073/pnas.2416228122
Chouldechova, A. (2017). Fair prediction with disparate impact: A study of bias in recidivism prediction instruments. Big Data, 5(2), S. 153–163. arXiv preprint 1610.07524.
Cornell Center for Teaching Innovation (o. J.). Generative Artificial Intelligence. Verfügbar unter: teaching.cornell.edu/generative-artificial-intelligence (Zugriff: 31. Oktober 2025).
Corpling Hypotheses (2024). Corpus Linguistics vs. LLMs. Verfügbar unter: corpling.hypotheses.org (Zugriff: 31. Oktober 2025).
Crawford, K. (2021). Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. New Haven: Yale University Press. https://doi.org/10.2307/j.ctv1ghv45t.
Da, N. Z. (2019). The computational case against computational literary studies. Critical Inquiry, 45(3), S. 601–639. doi.org/10.1086/702594
Dahl, M., Magesh, V., Suzgun, M. und Ho, D. E. (2024). Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models. arXiv 2401.01301.
Dastin, J. (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters, 10. Oktober 2018. Verfügbar unter: www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G (Zugriff: 1. November 2025).
DataCamp (2024). NotebookLM: A Guide With Practical Examples. Verfügbar unter: www.datacamp.com/tutorial/notebooklm (Zugriff: 31. Oktober 2025).
Digital Humanities Quarterly (DHQ) (2025). Calls for Proposals. Verfügbar unter: dhq.digitalhumanities.org/submissions/cfps.html (Zugriff: 31. Oktober 2025).
Effortless Academic (2024). Notebook LM - Google's newest academic AI tool, 22. August 2024. Verfügbar unter: effortlessacademic.com/notebook-lm-googles-newest-academic-ai-tool/ (Zugriff: 1. November 2025).
Effortless Academic (2025). Google's NotebookLM Updates in 2025 for Literature Review and Study. Verfügbar unter: effortlessacademic.com/googles-notebooklm-updates-in-2025-for-literature-review-and-study/ (Zugriff: 31. Oktober 2025).
Elephas (2025). AI Battle: Claude Projects vs. NotebookLM (2025). Verfügbar unter: elephas.app/blog/notebooklm-vs-claude-projects (Zugriff: 31. Oktober 2025).
El-Hajj, H., Eberle, O., Merklein, A., Siebold, A., Shlomi, N., Büttner, J., Martinetz, J., Müller, K.-R., Montavon, G. und Valleriani, M. (2023). Explainability and transparency in the realm of digital humanities: toward a historian XAI. International Journal of Digital Humanities, 6(2–3), S. 299–331. doi.org/10.1007/s42803-023-00070-1.
Elite Cloud (2024). The Ultimate AI Assistant Showdown: NotebookLM, ChatGPT, Notion, or Perplexity? Verfügbar unter: www.elite.cloud/post/the-ultimate-ai-assistant-showdown-notebooklm-chatgpt-notion-or-perplexity/ (Zugriff: 31. Oktober 2025).
Fickers, A. (2012). Towards A New Digital Historicism? Doing History in the Age of Abundance. VIEW Journal of European Television History and Culture, 1(1), S. 19–26. doi.org/10.18146/2213-0969.2012.jethc004.
Found History (2025). Generative artificial intelligence and archives: Two years on, 19. Juli 2025. Verfügbar unter: foundhistory.org/2025/07/generative-artificial-intelligence-and-archives-two-years-on/ (Zugriff: 31. Oktober 2025).
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J. und Wang, H. (2024). Retrieval-augmented generation for large language models: A survey. AI Open, 5, S. 1–24. doi.org/10.1016/j.aiopen.2024.10.001
Gallegos, I. O., Rossi, R. A., Barrow, J. et al. (2024). Bias and Fairness in Large Language Models: A Survey. Computational Linguistics, 50(3), S. 1097–1179. doi.org/10.1162/coli_a_00524
Gerstgrasser, M. et al. (2024). Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. Stanford University/MIT.
Google (2023). NotebookLM: How to try Google's experimental AI-first notebook. The Keyword, 19. Juli 2023. Verfügbar unter: blog.google/technology/ai/notebooklm-google-ai/ (Zugriff: 31. Oktober 2025).
Google (2024). NotebookLM launches in the U.S. with new features. The Keyword, 25. November 2024. Verfügbar unter: blog.google/technology/ai/notebooklm-new-features-availability/ (Zugriff: 1. November 2025).
Google Blog (2024). NotebookLM gets a new look, audio interactivity and a premium version, 11. Dezember 2024. Verfügbar unter: blog.google/technology/google-labs/notebooklm-new-features-december-2024/ (Zugriff: 31. Oktober 2025).
Google Support (2024). Frequently asked questions - NotebookLM Help. Verfügbar unter: support.google.com/notebooklm/answer/16269187 (Zugriff: 1. November 2025).
Google Workspace Updates (2025). New features available in NotebookLM and NotebookLM Plus, 19. März 2025. Verfügbar unter: workspaceupdates.googleblog.com/2025/03/new-features-available-in-notebooklm.html (Zugriff: 31. Oktober 2025).
Graham, S., Milligan, I. und Weingart, S. (2015). Exploring Big Historical Data: The Historian's Macroscope. London: Imperial College Press.
H-Net (2022). Reproducibility and Explainability in Digital Humanities. Verfügbar unter: networks.h-net.org/node/73374/announcements/10646839/reproducibility-and-explainability-digital-humanities (Zugriff: 31. Oktober 2025).
Haibe-Kains, B. et al. (2020). Transparency and reproducibility in artificial intelligence. Nature, 586, S. E14–E16. doi.org/10.1038/s41586-020-2766-y
Hockey, S. (2004). The History of Humanities Computing. In: Schreibman, S., Siemens, R. und Unsworth, J. (Hrsg.), A Companion to Digital Humanities. Oxford: Blackwell. companions.digitalhumanities.org/DH/.
Huang, L. et al. (2023). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. arXiv:2311.05232.
Huffman, P. und Hutson, J. (2024). Enhancing History Education with Google NotebookLM: Case Study of Mary Easton Sibley's Diary for Multimedia Content and Podcast Creation. Faculty Scholarship, Lindenwood University Digital Commons. Verfügbar unter: digitalcommons.lindenwood.edu/faculty-research-papers/683/
Humphries, M. (2022). A "Pretended Copy Right"? E.A. Kendall and the Writing of Alexander Henry's Travels and Adventures in Canada and the Indian Territories. Michigan Historical Review, 48(1), S. 1–29. doi.org/10.1353/mhr.2022.0002
Humphries, M. (2024). Generative AI and the (Tame) Digital History Revolution. Historica.org [Blog], 9. Oktober 2024. Verfügbar unter: www.historica.org/blog/generative-ai-digital-history-revolution (Zugriff: 31. Oktober 2025).
Humphries, M. und Leddy, J. (2024). Unlocking the Archives: Large Language Models Achieve State-of-the-Art Performance on the Transcription of Handwritten Historical Documents. arXiv:2411.03340v1, 2. November 2024.
IBM Research (2024). What is retrieval-augmented generation (RAG)? Verfügbar unter: research.ibm.com/blog/retrieval-augmented-generation-RAG (Zugriff: 31. Oktober 2025).
i-d-e.de (2016). Criteria for Reviewing Scholarly Digital Editions. Verfügbar unter: www.i-d-e.de/publikationen/weitereschriften/criteria-version-1-1/ (Zugriff: 31. Oktober 2025).
Jackson, S. (2023). Don't Stop Worrying or Learn to Love AI: A Plea for Caution. Perspectives on History, 6. November 2023. Verfügbar unter: www.historians.org/perspectives-article/dont-stop-worrying-or-learn-to-love-ai-a-plea-for-caution-november-2023/ (Zugriff: 31. Oktober 2025).
Jaźwińska, K. und Chandrasekar, A. (2025). AI search has a citation problem. Columbia Journalism Review, 6. März 2025. Verfügbar unter: www.cjr.org/tow_center_reports/ai-search-has-a-citation-problem.php (Zugriff: 1. November 2025).
Jeon, J., Kim, S. und Lee, H. (2025). AI Tools in Academia: Evaluating NotebookLM as a Tool for Conducting Literature Reviews. Psychiatry Investigation. doi.org/10.30773/pi.2024.0541
Jensen, K. E. (2014). Linguistics and the digital humanities: (Computational) corpus linguistics. MedieKultur: Journal of Media and Communication Research, 30(57), S. 115–134. doi.org/10.7146/mediekultur.v30i57.15968
Jones, M. L. (2023). AI in history. The American Historical Review, 128(3), S. 1360–1367. doi.org/10.1093/ahr/rhad361
Kalluri, P. (2020). Don't ask if artificial intelligence is good or fair, ask how it shifts power. Nature, 583, S. 169. doi.org/10.1038/d41586-020-02003-2
Klee, C. (2024). NotebookLM - KI-generierte Podcasts aus Materialien erstellen. Unterrichten Digital, 26. November 2024. Verfügbar unter: unterrichten.digital/2024/11/26/notebooklm-ki-podcasts-schule/ (Zugriff: 1. November 2025).
Klee, C. (2025). NotebookLM in Schule und Unterricht - KI-Plattform für Wissensstrukturierung wird erwachsen (Update 2025). Unterrichten Digital, 29. August 2025. Verfügbar unter: unterrichten.digital/2025/08/29/notebooklm-schule-unterricht-lernen-mit-ki/ (Zugriff: 31. Oktober 2025).
König, M. (2017). Digitale Methoden in der Geschichtswissenschaft. Definitionen, Anwendungen, Herausforderungen. BIOS – Zeitschrift für Biographieforschung, Oral History und Lebensverlaufsanalysen, 30(1–2), S. 7–21. doi.org/10.3224/bios.v30i1-2.02
Langer, A. (2023). Generative AI and historical authority. National Council on Public History, History@Work, 19. Oktober 2023. Verfügbar unter: ncph.org/history-at-work/generative-ai-and-historical-authority/
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S. und Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, S. 9459–9474. arXiv:2005.11401.
Lubar, S. (2024). AI and Historical Research. Public Humanities & More, 9. März 2024. Verfügbar unter: stevenlubar.net/uncategorized/ai-and-historical-research/ (Zugriff: 31. Oktober 2025).
Meadows, R. D. und Sternfeld, J. (2023). Artificial Intelligence and the practice of history: A forum. The American Historical Review, 128(3), S. 1345–1349. doi.org/10.1093/ahr/rhad362
Matthäus, J. (2023). Research note: 'The last Jews in Vinnitsa': Reframing an iconic Holocaust photograph. Holocaust and Genocide Studies, 37(3). doi.org/10.1093/hgs/dcad053.
Medium (2024). Step-by-Step Guide to Building a RAG System with NotebookLM. Verfügbar unter: medium.com/data-science-collective/step-by-step-guide-to-building-a-rag-system-with-notebooklm-81688b9f516f (Zugriff: 31. Oktober 2025).
Moretti, F. (2000). Conjectures on World Literature. New Left Review, 1, S. 54–68.
Mühlberger, G. et al. (2015). Transcribing historical manuscripts: The READ project. DATeCH '15: Proceedings of the 2nd International Conference on Digital Access to Textual Cultural Heritage, S. 137–142. doi.org/10.1145/2809864.2809870
Muni.cz (o. J.). Digital Humanities Methods. Verfügbar unter: www.muni.cz/en/research/projects/digital-humanities (Zugriff: 31. Oktober 2025).
Northwestern University Libraries (2024). Evaluating AI Generated Content. In: Using AI Tools in Your Research - Research Guides. Verfügbar unter: libguides.northwestern.edu/c.php (Zugriff: 1. November 2025).
NPR (2022). Artificial Intelligence helped connect a Holocaust survivor with photos of her past. Interview mit Daniel Patt, 19. Dezember 2022. www.npr.org/2022/12/19/1144230135/artificial-intelligence-helped-connect-a-holocaust-survivor-with-photos-of-her-p
NVIDIA (2024). What Is Retrieval-Augmented Generation aka RAG. Verfügbar unter: blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/ (Zugriff: 31. Oktober 2025).
Oracle (2024). What Is Retrieval-Augmented Generation (RAG)? Verfügbar unter: www.oracle.com/de/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/ (Zugriff: 31. Oktober 2025).
Patt, D. (2022). From Numbers to Names: AI-based facial recognition for Holocaust photo identification. The Times of Israel, 26. Juni 2022. www.timesofisrael.com/google-engineer-identifies-anonymous-faces-in-wwii-photos-with-ai-facial-recognition/
Postmus, V. (2024). The future of AI is helping us discover the past. Reason, 5. Mai 2024. Verfügbar unter: reason.com/2024/05/05/the-future-of-ai-is-helping-us-discover-the-past/ (Zugriff: 31. Oktober 2025).
Poy, L. (2025). NotebookLM: The end of reading as we knew it? [Substack newsletter], 10. Juli 2025. Verfügbar unter: lucaspoy.substack.com/p/notebooklm-the-end-of-reading-as (Zugriff: 31. Oktober 2025).
Prescott, A. (2023). Bias in Big Data, Machine Learning and AI: What Lessons for the Digital Humanities? Digital Humanities Quarterly, 17(2). Verfügbar unter: www.digitalhumanities.org/dhq/vol/17/2/000686/000686.html (Zugriff: 1. November 2025).
Presner, T. (2024). Ethics of the Algorithm: Digital Humanities and Holocaust Memory. Princeton: Princeton University Press.
Ries, T., Van Dalen-Oskam, K. und Offert, F. (Hrsg.) (2023). Reproducibility and explainability in digital humanities. International Journal of Digital Humanities, 6(1). doi.org/10.1007/s42803-023-00083-w
Schmale, W. (Hrsg.) (2015). Digital Humanities. Praktiken der Digitalisierung, der Dissemination und der Selbstreflexivität. Stuttgart (Historische Mitteilungen – Beihefte 91).
Schöch, C. et al. (2023). ADHO Conference Evaluation Criteria (revised October 2023). Verfügbar unter: dh2025.adho.org/wp-content/uploads/2024/12/ADHO_conference_evaluation_criteria.pdf (Zugriff: 1. November 2025).
Shumailov, I. et al. (2024). The Curse of Recursion: Training on Generated Data Makes Models Forget. Nature. arXiv: 2305.17493.
ScienceDirect (2024). Testing ChatGPT for corpus linguistic tasks. Verfügbar unter: www.sciencedirect.com/science/article/pii/S2772766124000456 (Zugriff: 31. Oktober 2025).
Sternfeld, J. (2023). AI-as-historian. The American Historical Review, 128(3), S. 1372–1377. doi.org/10.1093/ahr/rhad368
THA (2024). NotebookLM. Verfügbar unter: www.tha.de/NotebookLM.html (Zugriff: 31. Oktober 2025).
The Positive Community (2025). Can A.I. Help Write History? 16. Juni 2025. Verfügbar unter: thepositivecommunity.com/2025/06/16/can-a-i-help-write-history/ (Zugriff: 31. Oktober 2025).
Text Encoding Initiative (1987). Planungskonferenz am Vassar College, Poughkeepsie, New York, 12.–13. November 1987. Dokumentiert in: Sperberg-McQueen, C. M. und Burnard, L. (1993). Guidelines for the Encoding and Interchange of Machine-readable Texts. Chicago/Oxford: ACH-ACL-ALLC Text Encoding Initiative.
Thiel, T. (2013a). Digitale Geschichtswissenschaft. Mittel auf der Suche nach einem Zweck. Frankfurter Allgemeine Zeitung, 11. Februar 2013.
Thiel, T. (2013b). Hermeneutik digitaler Texte. In: Geiselberger, H. und Moorstedt, T. (Hrsg.), Big Data: Das neue Versprechen der Allwissenheit. Berlin: Suhrkamp, S. 164–180.
TruEra (2024). RAG Quality Benchmarks. [Benchmark-Tests zu verschiedenen Qualitätsaspekten von RAG-Systemen].
Tozuka, R., Johno, H., Amakawa, A., Sato, J., Muto, M., Seki, S., Komaba, A. und Onishi, H. (2024). Application of NotebookLM, a large language model with retrieval-augmented generation, for lung cancer staging. Japanese Journal of Radiology, 43(4), S. 706–712. doi.org/10.1007/s11604-024-01705-1
Uchida, S. (2024). Using early LLMs for corpus linguistics: Examining ChatGPT's potential and limitations. Applied Corpus Linguistics, 4(1), 100066. doi.org/10.1016/j.acorp.2024.100089
Underwood, T. (2019). Distant Horizons: Digital Evidence and Literary Change. Chicago: University of Chicago Press.
Underwood, T. (2020). Mapping the latent spaces of culture. Critical Inquiry, 46(4), S. 788–809. doi.org/10.1086/707895
USC Graduate Writing Coach (2024). AI Writing and Attribution: AI Cannot Cite Anything. Verfügbar unter: sites.usc.edu/graduate-writing-coach/ai-writing-and-attribution-ai-cannot-cite-anything/ (Zugriff: 1. November 2025).
Vectara (2023/2024). Hughes Hallucination Evaluation Model (HHEM) Benchmark. [Laufend aktualisierte Studie zur Messung von Halluzinationsraten].
Von Eschenbach, W. J. (2021). Transparency and the black box problem: Why we do not trust AI. Philosophy & Technology, 34, S. 1607–1622. doi.org/10.1007/s13347-021-00477-0
Walters, W. H. und Wilder, E. I. (2023). Fabrication and errors in the bibliographic citations generated by ChatGPT. Scientific Reports, 13, Article 14045. doi.org/10.1038/s41598-023-41032-5
Wasik, B. (2025). A.I. Is Poised to Rewrite History. Literally. The New York Times Magazine, 16. Juni 2025. Verfügbar unter: www.nytimes.com/2025/06/16/magazine/ai-history-historians-scholarship.html (Zugriff: 1. November 2025).
Watson (2025). Holocaust-Foto: KI löst Rätsel um "Der letzte Jude von Winniza", 25. Januar 2025. Verfügbar unter: politik.watson.de/politik/international/846314725-holocaust-foto-raestel-um-der-letzte-jude-von-winniza-durch-ki-geloest (Zugriff: 3. November 2025).
Wettlaufer, J. (2016). Neue Erkenntnisse durch digitalisierte Geschichtswissenschaft(en)? Zur hermeneutischen Reichweite aktueller digitaler Methoden in informationszentrierten Fächern. Zeitschrift für digitale Geisteswissenschaften, 1. doi.org/10.17175/2016_011
Wolf, F., Tüselmann, O., Matei, A., Hennies, L., Rass, C. und Fink, G. A. (2025). CM1 - A Dataset for Evaluating Few-Shot Information Extraction with Large Vision Language Models. In: Yin, X.-C., Karatzas, D. und Lopresti, D. (Hrsg.), Document Analysis and Recognition – ICDAR 2025, Part II. Cham, S. 23–39.
Zaagsma, G. (2013). On Digital History. BMGN – Low Countries Historical Review, 128(4), S. 3–29. doi.org/10.18352/bmgn-lchr.9344