KI und geschichtswissenschaftliche Praxis | Zukunft

Prof. Dr. Christoph Rass
Arbeitsgruppe Neueste Geschichte und Historische Migrationsforschung
[IMIS] [SFB1604] [HistOS]

Künstliche Intelligenz in der Geschichtswissenschaft: Potentiale, Anwendungen und spezialisierte Modelle

Vorbemerkung

Die vorliegende Beitrag wurde von der  Arbeitsgruppe Neueste Geschichte und Historische Migrationsforschung (NGHM) der  Universität Osnabrück zusammengestellt. Der Text versteht sich als Angebot zur Orientierung in einem hochdynamischen Feld, das sich gegenwärtig in schneller Expansion befindet. Die hier vorgestellten Beobachtungen, Einschätzungen und Perspektiven haben daher notwendig vorläufigen Charakter. Ziel ist es, an den aktuellen Stand der Diskussion anzuschließen und Orientierungspunkte für den wissenschaftsförmigen Einsatz von Künstlicher Intelligenz in Forschung und Lehre zu formulieren.

Einleitung

Die aktuellen Fortschritte im Bereich der Künstlichen Intelligenz und des Machine Learning eröffnen der Geschichtswissenschaft neue Möglichkeiten. Dieser Beitrag befasst sich mit erfolgreichen Beispielen für KI-Einsatz aus der Forschungspraxis und diskutiert insbesondere das Potential speziell trainierter LLMs oder MLLMs für den Einsatz in unserer Disziplin. Besonders relevant für dieses Arbeitsfeld sind große vortrainierte Modelle, sogenannte Foundation Models, die auf sehr umfangreichen Datensätzen trainiert werden und anschließend für spezifische Aufgaben und Fachdomänen angepasst werden können ( Schneider 2022).

Unter einem Foundation Model versteht man ein Modell, das nicht für eine einzige Aufgabe entwickelt wurde, sondern als vielseitige Grundlage dient, die sich durch weiteres Training oder Feintuning auf spezialisierte Anwendungsfelder zuschneiden lässt.

Zugleich diskutiert dieser Beitrag auch die Grenzen und Risiken des wissenschaftlichen Einsatzes von Künstlicher Intelliegenz. 

  • Für die Geschichtswissenschaft stellt sich inzwischen nicht mehr die Frage, ob KI nutzbar ist, sondern wie ein wissenschaftsförmiger Einsatz dieser Werkzeuge aussehen kann: also ein Einsatz, der methodisch abgesichert ist, die Prinzipien historischer Quellenkritik respektiert und die interpretative Verantwortung klar bei den Historikerinnen und Historikern belässt ( Götter 2024).

Die Digital History hat in den letzten zwei Jahrzehnten computergestützte Methoden systematisch in die geschichtswissenschaftliche Forschung integriert: Datenbanken, quantifizierende Analysen, Georeferenzierung, Netzwerkanalysen, automatisierte Volltextsuche. KI-Verfahren setzen hier einen nächsten Schritt. Heute können handschriftliche Quellen automatisch transkribiert werden oder tausende Seiten Zeitungsberichterstattung binnen kurzer Zeit semantisch erschlossen werden ( Spina 2023;  Guldi 2024).

Im Folgenden

  • zeigen wir die Möglichkeiten und Potentiale solcher Ansätze für die Text- und Datenanalyse auf,
  • ordnen den Einsatz von KI im geschichtswissenschfatlichen Forschungsprozess ein und
  • diskutieren die Perspektive, eigene, historisch informierte KI-Modelle auf Grundlage von Foundation Models zu entwickeln.

Dabei wird bewusst sowohl auf bereits veröffentlichten Forschungsergebnisse als auch auf dokumentierte, laufende Forschungs- und die unmittelbare Lehrpraxis Bezug genommen ( Götter 2024;  Digital History Bielefeld 2025), um die Aktualität vieler spannender Entwicklungen und Diskussionen zu erfassen.

KI in der historischen Text- und Datenanalyse

Eines der zentralen Anwendungsfelder von KI in der Geschichtswissenschaft liegt in der Auswertung großer Textbestände. Historikerinnen und Historiker arbeiten zunehmend mit Massendaten: digitalisierte Zeitungen, Verwaltungsakten, Gerichtsprotokolle, Verwaltungsstatistiken, Ego-Dokumente oder Korrespondenzen über lange Zeiträume. Klassische Verfahren des Text Mining, insbesondere Topic Modeling, wurden bereits intensiv und systematsich genutzt, um thematische Strukturen und langfristige Trends in solchen Corpora sichtbar zu machen. So lassen sich Diskursverschiebungen, thematische Konjunkturen oder politische Sprachmuster historisch über Jahrzehnte nachzeichnen ( Farrell 2024;  Guldi 2024). Farrell beschreibt zwar die Entwicklung von Textmining in den Lebenswissenschaften, die dortigen Ansätze bieten indes zahlreiche Anregungen für die Geschichtswissenschaft; die Historikerin Jo Guldi ist eine der progressivsten Stimmen in der Geschichtswissenschaft im Kontext der Entwickung von Textmining-Methoden und deren kritischer Einordnung.   

Massendatentranskription und Textbereinigung 

Aktuelle KI-Verfahren erweitern diese Ansätze qualitativ. Handwritten Text Recognition (HTR) auf Basis neuronaler Netze ermöglicht heute die weitgehend automatische Transkription handschriftlicher Quellen – etwa frühneuzeitlicher Briefe oder Verwaltungsakten – in durchsuchbaren Volltext. In der Forschungspraxis hat sich insbesondere das Tool Transkribus als Standardwerkzeug etabliert, weil es domänenspezifisch feintrainierte Modelle erlaubt und Fehlerquoten erreicht, die eine echte inhaltliche Auswertung erst möglich machen ( Nockels et al. 2022).

Teams von Historiker*innen und Informatiker*innen koppeln HTR zunehmend mit nachgeschalteten Workflows aus großen Sprachmodellen (LLMs), um OCR-/HTR-Ausgabe zu bereinigen, zu normalisieren (vereinheitlichte Orthographie, Auflösung von Abkürzungen) und als strukturierte, forschungsfähige Daten bereitzustellen. Fallstudien zeigen einen kombinierten Einsatz von Transkribus mit generativen Modellen (z. B. zur Normalisierung und Glättung von Adelskorrespondenzen), wobei menschliche Kontrolle nötig bleibt, um stilistische Glättungen oder stillschweigende Ergänzungen durch das Sprachmodell zu identifizieren ( Spina 2023). Die Literatur zu Transkribus geth davon aus, dass HTR inzwischen in Archiven und Bibliotheken international zunehmend als eine reguläre Infrastruktur eingesetzt wird und die Schwelle zur Nutzbarkeit vormals schwer lesbarer Bestände drastisch senkt ( Nockels et al. 2022). Ein nächster Schritt auf diesem Entwickungspfad ist die unmittelbare Texterkennung mit speziel trainierten LLMs bzw. MLLMs, die nicht mehr auf Werkzeuge wie Transkribus zurückgreift, sondern auf die Selbstlernfähgikeit solcher Systeme für die Umsetzung qualitativ hochwertiger Schrifterkennung setzt ( Wolf et al. 2025). 

Das Ergebnis ist keine perfekte, druckreife Edition, sondern ein transkribierter Rohtext, den Historikerinnen und Historiker schneller sichten, durchsuchen und kritisch bearbeiten können. Das Potenzial liegt in der radikalen Skalierung der Heuristik durch Massentranskription vormals unzugänglicher Quellen. Die Grenze zeigt sich darin, dass jede automatische Normalisierung eine Intervention in die Quelle darstellt und als solche dokumentiert, geprüft und gegebenenfalls nachjustiert werden muss ( Spina 2023). Perspektivisch lassen sich dann KI-gestützte Expertensysteme auf maschinenlesbar gemachten historischen Quellen trainieren, um Regrieval Augmented Generation in großem Maßstab umzusetzen. Dabei gilte es indes zahlreiche ethische und methodische Fragen zu lösen. Erste Ansätze weisen indes bereits in diese Richtung. 

Semantische Textanalyse und Diskursverläufe

Moderne große Sprachmodelle (Large Language Models, LLMs) sind in der Lage, Texte nicht nur statistisch zu clustern, sondern auch zusammenzufassen, Begriffe inhaltlich zuzuordnen oder Beziehungen zwischen Akteuren aus unstrukturierten Texten vorzuschlagen ( Spina 2023;  Dissinet 2025). Verfahren wie Topic Modeling, Embeddings und weitere Methoden des Text Mining ermöglichen es, in sehr großen Textkorpora thematische Muster, Diskursverschiebungen und semantische Cluster zu identifizieren ( Guldi 2024).

Jo Guldi argumentiert, dass diese Verfahren keine simple Automatisierung historischer Interpretation darstellen, sondern eine neue Skalierung klassischer historischer Arbeit: Historikerinnen und Historiker können Millionen Seiten Textmaterial maschinell strukturieren lassen, um dann gezielt an „Hotspots" hermeneutisch weiterzuarbeiten ( Guldi 2024). Projekte wie ClioQuery entwickeln Interfaces speziell für historische Recherche: Anstatt ausschließlich Volltextsuche anzubieten, werden Begriffe kontextualisiert, zusammengefasst und visuell aufbereitet, um die Untersuchung großer Nachrichten- und Zeitungskorpora effizienter und argumentativ anschlussfähig zu machen ( Handler et al. 2022).

Auch im Bereich der frühneuzeitlichen Wissensproduktion zeigen Arbeiten mit Explainable AI (XAI), dass maschinelle Clusterung und semantische Nähe genutzt werden können, um Strukturen in sehr großen Druckkorpora sichtbar zu machen – und zwar so, dass die Modelle ihre Zuordnungen begründen ( Eberle et al. 2023). Das Potenzial liegt darin, dass Diskurse, Deutungsmuster, Frames und „silences" (Ausschlüsse) sich über lange Zeiträume quantitativ verfolgen und historisch kontextualisieren lassen ( Guldi 2024;  Eberle et al. 2023). Die Grenze besteht darin, dass diese Verfahren scheinbar objektive Muster erzeugen. Ohne quellengesättigte Kontextualisierung (etwa Presseökonomie, staatliche Zensur, regionale Selektivitäten) droht ein naturalisierter Bias ( Guldi 2024).

Informationsextraktion und Wissensgraphen

In laufenden Projekten wird auch bereits untersucht, wie aus vormodernen oder frühneuzeitlichen Quellen (Gerichtsprotokollen, inquisitorischen Verhörakten) automatisch Rollen (wer klagt gegen wen?), Handlungszusammenhänge und soziale Netzwerke extrahiert werden können ( Dissinet 2025). Das Ziel ist dabei nicht, eine fertige Interpretation zu erhalten, sondern strukturierte Ausgangsdaten, die Historikerinnen und Historiker anschließend prüfen, bewerten und in einen historischen Kontext einordnen ( Dissinet 2025;  Digital History Bielefeld 2025).

Von besonderer Bedeutung ist die automatisierte Erkennung von Entitäten (Named Entity Recognition, NER). Hier geht es um das maschinelle Identifizieren von Personen-, Orts- oder Organisationsnamen und deren Verknüpfungen in historischen Texten. Historische Quellen sind dafür herausfordernd: variable Orthographie, Sprachwandel, Beschädigungen, schlechte OCR-Qualität ( Spina 2023).

Studien zeigen jedoch, dass große Sprachmodelle selbst unter solchen Bedingungen zunehmend in der Lage sind, Kandidatenvorschläge für relevante Akteure und Beziehungen zu liefern, auch dann, wenn nur begrenzte Trainingsdaten vorliegen ( Dissinet 2025). Die Qualität dieser Vorschläge variiert, muss kontrolliert und nachjustiert werden, eröffnet aber die Möglichkeit, vormals sehr arbeitsintensive Extraktionsschritte erheblich zu beschleunigen.

KI-gestützte Named Entity Recognition, Relation Extraction und Klassifikation werden eingesetzt, um aus historischen Texten Personen, Orte, Organisationen und Beziehungen halbautomatisch zu extrahieren und in strukturierte Datensätze oder Netzwerke zu überführen ( Spliethoff 2025).

Solche Pipelines werden in Digital-History-Projekten dokumentiert, die etwa vormoderne Kommunikationsräume oder politische Konfliktlagen analysieren: Dort laufen LLMs lokal, um Nachvollziehbarkeit, Reproduzierbarkeit und langfristige wissenschaftliche Nutzung sicherzustellen ( Spliethoff 2025). Maschinelles Post-Processing von OCR/HTR durch lokal kontrollierte LLMs dient dazu, heterogene, fehlerhafte Scans so weit zu bereinigen, dass Suchbegriffe, Kookkurrenzen oder Netzwerke historischer Akteure überhaupt analysierbar werden ( Spliethoff 2025;  Eberle et al. 2023).

Das Potenzial besteht darin, aus unstrukturierten Quellen relationale Forschungsdatenbanken zu gewinnen, die neue sozial-, politik- und kulturgeschichtliche Fragestellungen erlauben: wer interagiert mit wem, unter welchen Bedingungen, mit welchen rhetorischen Strategien ( Spliethoff 2025;  Eberle et al. 2023). Die Grenze liegt darin, dass jede Automatisierung offengelegt werden muss (Trainingsdaten, Prompting, Korrekturschritte), sonst droht ein Black-Box-Citation-Problem, bei dem Ergebnisse nicht mehr methodisch rückführbar sind ( Spliethoff 2025).

Retrieval-Augmented Generation und Archivzugang

Auch im Bereich der Bild- und Objektanalyse werden KI-Verfahren genutzt, etwa zur Klassifizierung historischer Fotografien oder zur automatischen Annotation von visuellen Elementen in frühneuzeitlichen Drucken ( Adorni & Bellini 2025). Hier zeigt sich aber sehr klar der Bedarf kritischer Kontrolle: Modelle liefern mitunter falsche oder anachronistische Zuordnungen, insbesondere wenn Trainingsdaten lückenhaft sind oder ikonographische Konventionen nicht erfasst werden ( Digital History Bielefeld 2025).

In Archiven und Bibliotheken wird mit retrieval-gestützten Assistenzsystemen experimentiert, bei denen historische Volltexte plus Metadaten in ein lokales System eingespeist werden. Ein Sprachmodell beantwortet Anfragen dann nur noch gestützt auf diese dokumentierten Bestände, nicht auf sein allgemeines Weltwissen ( Huff 2024). Das Potenzial liegt im niedrigschwelligen Zugang zu Quellen, auch für Lehre, Citizen Science und Provenienzforschung. Die Grenze besteht darin, dass Retrieval-Augmented Generation (RAG) so gut ist wie die kuratierten Bestände und keine klassische Quellenkritik im archivischen Sinn ersetzt ( Huff 2024).

KI-gestützte Verfahren ermöglichen es, größere Mengen historischer Quellen schneller zu erschließen, erste Strukturen sichtbar zu machen und Analysehorizonte zu erweitern ( Guldi 2024;  Götter 2024). Sie ersetzen aber weder Quellenkritik noch Interpretation. Vielmehr liefern sie Bausteine (Kandidaten für Akteure, Netzwerke, Themenfelder, zeitliche Verläufe), über die Historikerinnen und Historiker anschließend historisch argumentieren ( Digital History Bielefeld 2025). Solche Fehler sind kein Randphänomen, sondern Teil des Arbeitsalltags mit KI. Sie markieren deutlich, dass maschinell erzeugte Strukturierungsvorschläge immer kuratiert, verifiziert und historisch eingeordnet werden müssen.

KI im historischen Forschungsprozess

KI wirkt nicht nur auf der Ebene der Quellenerschließung, sondern auf den gesamten Forschungsprozess in der Geschichtswissenschaft. Betrachten wir in klassischer Terminologie Schritte wie Heuristik (Quellensuche), Quellenkritik, Interpretation und Darstellung, dann gibt es heute an allen diesen Stellen Formen von KI-Unterstützung ( Götter 2024).

Heuristik / Quellensuche: Archive und Forschungsverbünde beginnen, semantische Such- und Empfehlungssysteme einzusetzen. Statt nur Schlagworte zu suchen, werden inhaltlich ähnliche Dokumente vorgeschlagen. Dadurch sinkt der Aufwand, relevante Quellen überhaupt zu identifizieren, und die empirische Basis historischer Forschung kann verbreitert werden ( Götter 2024;  Digital History Bielefeld 2025).

Quellenkritik: KI kann Dubletten oder auffällige Passagen markieren, aber sie übernimmt die eigentliche Quellenkritik nicht. Im Gegenteil: Je stärker KI in der Recherche genutzt wird, desto wichtiger wird für Historikerinnen und Historiker die Fähigkeit, algorithmisch erzeugte Ergebnisse kritisch einzuordnen, etwa zu prüfen, ob eine behauptete Beziehung zwischen zwei historischen Akteuren wirklich im Text belegt ist oder eine Halluzination darstellt ( Guldi 2024). In diesem Zusammenhang fordern Ansätze der Explainable AI (XAI), dass geisteswissenschaftliche Auswertungen nachvollziehbar bleiben sollen: Historikerinnen und Historiker müssen sehen können, warum ein Modell einen Text einem bestimmten Thema zuordnet oder welche Textstellen dafür entscheidend waren ( Adorni & Bellini 2025).

Interpretation / Synthese: Große Sprachmodelle können helfen, umfangreiche Materialien in vorläufige Zusammenfassungen, Vergleichsübersichten oder Argumentationsskizzen zu überführen ( Spina 2023;  Guldi 2024). Solche Entwürfe sind nützlich, um sich einen ersten Überblick über große, heterogene Quellenbestände zu verschaffen oder Forschungsliteratur in einer neuen Sprache zugänglich zu machen. Zugleich ist gut belegt, dass generative Modelle plausible, aber falsche Aussagen produzieren können, einschließlich unzutreffender Datierungen oder erfundener Quellenangaben ( Guldi 2024). Für die historische Forschung bedeutet das: Solche KI-gestützten Synthesen sind Arbeitshypothesen, keine fertige Auswertung.

Darstellung / Kommunikation: KI-gestützte Übersetzungssysteme und Stilassistenz-Tools können Forschungsergebnisse in andere Sprachen oder für andere Zielgruppen adaptieren. Das kann wissenschaftliche Kommunikation inklusiver und internationaler machen. In Studium und Lehre stellt sich allerdings die Frage der wissenschaftlichen Redlichkeit: Wenn Studierende KI nutzen, um Texte zu glätten oder Rohfassungen zu erzeugen, müssen Hochschulen klären, wie Eigenleistung, Zitation und Transparenz definiert werden ( Götter 2024). Erste Positionspapiere plädieren nicht für ein Verbot, sondern für klar deklarierte Nutzung und für Prüfungsformate, die Reflexions- und Analysekompetenz sichtbarer machen als reine Reproduktion von Wissen ( Götter 2024;  Adorni & Bellini 2025).

Die bisherigen Erfahrungen lassen sich so zusammenfassen: KI-Werkzeuge können Routineaufgaben (Sichten, Sortieren, Vorstrukturieren, Übersetzen, Zusammenfassen) erheblich beschleunigen. Das verschiebt die Arbeitsökonomie historischer Forschung, ohne ihren methodischen Kern außer Kraft zu setzen ( Götter 2024). Historikerinnen und Historiker bleiben verantwortlich für Quellenkritik, Kontextualisierung und argumentative Deutung. KI ist hier weniger Ersatz als vielmehr Assistenzsystem, das skaliert, was überhaupt prüfbar und denkbar wird ( Götter 2024;  Digital History Bielefeld 2025).

KI-Kompetenzen als Bestandteil historischer Ausbildung

Die Frage ist längst nicht mehr, ob Historikerinnen mit KI arbeiten sollten, sondern wie wir Studierende und Kolleginnen dafür qualifizieren, KI-gestützte Methoden als Teil historischer Forschung reflektiert einzusetzen. Aktuelle Positionen aus der Digital History betonen drei Kompetenzebenen:

  • Analytische Kompetenz

Studierende müssen verstehen, wie Modelle funktionieren: Was bedeutet Training? Was heißt Fine-Tuning auf einem spezifischen historischen Korpus? Woher stammen die Daten, die ein Sprachmodell als vermeintliche „Fakten" wiedergibt? Historisches Arbeiten unter Digitalitätsbedingungen verlangt, algorithmische Entscheidungen als historisch wirkmächtige Eingriffe zu begreifen ( Spliethoff 2025).

  • Methodische Kompetenz

Dazu gehört: ein HTR-/OCR-Resultat kritisch prüfen, ein Prompt so formulieren, dass ein LLM historische Orthographien nicht „glattlügt", eine automatische Klassifikation gegen manuell annotierte Stichproben evaluieren, die Zwischenschritte (Prompting, Korrekturen, Filtern) dokumentieren ( Spliethoff 2025).

In der Praxis heißt das: Historikerinnen und Historiker entwickeln Kategorienschemata, trainieren Modelle auf spezifische historische Sprachlagen (etwa frühneuzeitliche Schmäh- und Invektivsprache), lassen das Modell skalieren – und prüfen die Abweichungen zurück in den Quellenkontext. Das ist eine Fortführung klassischer Quellenkritik in den Bereich algorithmischer Modellkritik ( Spliethoff 2025;  Guldi 2024).

  • Reflexive Kompetenz

Diese Ebene meint die Fähigkeit, die gesellschaftlichen und epistemischen Folgen von KI zu thematisieren: Wie verändern LLMs Geschichtsverständnis, wenn sich Studierende Geschichte zunehmend von generativen Systemen „erzählen" lassen? Welche Risiken entstehen, wenn KI koloniale oder rassistische Narrative unreflektiert reproduziert oder Gewalt verharmlost? Solche Fragen werden heute explizit in geschichtsdidaktischen KI-Settings gestellt ( Spliethoff 2025;  Guldi 2024).

KI-Literacy wird Teil des geschichtswissenschaftlichen Handwerkszeugs und unserer Praxis – nicht als reine Programmierausbildung, sondern als epistemische Aneignung durch die Geschichtswissenschaft, um im Zeitalter daten- und modellgetriebener Deutungsangebote wissenschaftlich und disziplinär Handlungsfähig und souverän zu bleiben ( Guldi 2024;  Götter 2024).

Fachspezifische KI-Modelle auf der Basis von Foundation Models

Eine der spannendsten Entwicklungen (und zugleich eine zentrale Perspektive für die nächsten Jahre) ist die Anpassung bzw. das weitere Training großer Basismodelle speziell für historische Materialien. Anstatt ausschließlich auf allgemeine, überwiegend gegenwarts- und englischsprachlich geprägte Modelle zurückzugreifen, arbeiten Forschungsteams zunehmend daran, domänenspezifische Modelle aufzubauen ( Schneider 2022;  Liu et al. 2023).

Domänenspezifische Sprachmodelle bzw. multimodale Modelle

Historische Sprachstufen, Schreibkonventionen und Referenzwelten unterscheiden sich massiv von Gegenwartssprache. Allgemeine Foundation Models halluzinieren hier häufig oder scheitern an Orthographie, Syntax, Kontext ( Liu et al. 2023;  Götter 2024). Ein Ausweg ist die gezielte Weiter- bzw. Nachtrainierung großer Sprachmodelle auf disziplinspezifischen Korpora.

Die Grundidee ist relativ einfach: Historiker*innen nehmen ein vorhandenes Foundation Model und setzen ein sogenanntes Continual Pretraining bzw. Fine-Tuning auf historischen Korpora obenauf. Dadurch lernt das Modell nicht nur heutige Sprache, sondern auch historische Register, altertümliche Grammatik, veränderte Wortbedeutungen und fachliche Terminologie ( Schneider 2022;  Liu et al. 2023).

Konkrete Beispiele zeigen, dass diese Strategie funktioniert:

  • SikuGPT / GujiBERT / GujiGPT: In der chinesischen Digital Humanities wurden große Sprachmodelle speziell auf vormodernen Textkorpora (u. a. Siku Quanshu) weitertrainiert, um Aufgaben wie Klassifikation, semantische Suche, Segmentierung klassischer Texte oder Übersetzungen in modernes Chinesisch besser zu bewältigen als generische Modelle ( Liu et al. 2023). Ein prominentes Beispiel ist SikuGPT: ein GPT-basiertes Modell, das auf dem vormodernen chinesischen Korpus der Siku Quanshu weitertrainiert wurde. Es zeigte bei Aufgaben wie Segmentierung, Klassifikation und intralingualer Übersetzung deutlich bessere Ergebnisse als generische Modelle und machte vormodernes Material maschinell erschließbar. Diese Arbeiten belegen, dass historisch trainierte Modelle in ihrer jeweiligen Domäne klar leistungsfähiger agieren als allgemeine Sprachmodelle, die vor allem auf zeitgenössischen, alltagssprachlichen Daten beruhen.
  • Historische Presse- und Nachrichtencorpora: Projekte zur großskaligen Erschließung regionaler Pressebestände des 20. Jahrhunderts (etwa US-Nachrichtenagenturen der 1960er und 1970er Jahre) nutzen LLM-Pipelines, um OCR-Rohmaterial zu bereinigen, zu segmentieren und mit Metadaten anzureichern. Diese Korpora werden anschließend als Trainingsgrundlage genutzt, um eigene Such- und Analysemodelle für genau diese Pressegattungen zu entwickeln ( McRae 2025). Das verbessert die Zugänglichkeit historischer Medienquellen deutlich.
  • Epigraphik und Altertum: In der altertumswissenschaftlichen Forschung werden Modelle entwickelt, die auf großen Inschriftenkorpora trainiert sind und etwa fehlende Textstellen ergänzen, Datierungsvorschläge machen oder geographische Zuordnungen vorschlagen. Diese Modelle liefern dabei Hypothesen, keine endgültigen Zuschreibungen. Sie beschleunigen aber die Arbeit an stark fragmentierten Quellenbeständen und helfen, Vergleichsfälle schneller zu identifizieren ( Adorni & Bellini 2025).

Diese Beispiele unterstreichen, dass es technisch und methodisch möglich ist, historisch informierte KI-Modelle für klar umrissene Domänen aufzubauen und gewinnbringend einzusetzen ( Liu et al. 2023;  McRae 2025). Zugleich markieren sie die Grenze des derzeit Machbaren. Wir verfügen (noch) nicht über ein allgemeines Modell der Geschichtswissenschaft, das für alle Zeiten, Sprachen, Quellengattungen und Interpretationskontexte gleichermaßen zuverlässig wäre. Stattdessen sehen wir derzeit spezialisierte Modelle für einzelne Epochen, Sprachräume und Quelltypen. Diese Modelle sind gegenwärtig hoch spezialisiert (eine Epoche, eine Sprache, eine Quellengattung). Sie markieren aber eine strategische Richtung: Die Geschichtswissenschaft beginnt, nicht nur KI zu nutzen, sondern sie als Teil eigener Forschungsinfrastruktur mitzugestalten ( Liu et al. 2023;  Adorni & Bellini 2025).

Skalierbare historische Korpora als Infrastruktur

Großangelegte, kuratierte Datensammlungen bilden das Rückgrat historischer KI-Modelle:

  • Das Southern Newswire Corpus stellt ein groß angelegtes Korpus südlicher US-Zeitungen der 1960er und 1970er Jahre bereit, mit OCR-Bereinigung, LLM-Annotation und Metadatenstruktur. Ziel ist unter anderem, politische und kulturelle Narrative der US-Südstaaten in Schlüsseljahren der Bürgerrechtsära systematisch vergleichen zu können ( McRae 2025).
  • Das Projekt Newswire (1878–1977) rekonstruiert Nachrichtentexte über ein ganzes Jahrhundert hinweg, versieht sie mit Entitäten, Orten und Themenklassifikation und macht sie als maschinenlesbare Ressource zugänglich ( Silcock et al. 2024).

Solche Infrastrukturen erlauben reproduzierbare, überprüfbare KI-Modelle mit historisch verankerter Wissensbasis. Genau diese Richtung – skalierbare, aber dokumentierte und nachvollziehbare Trainings- und Analysegrundlagen – wird in der Community als Voraussetzung sinnvoller historischer KI-Einsatzweisen formuliert ( Humphries et al. 2024). Die Geschichtswissenschaft bewegt sich damit schrittweise in Richtung eigener digitaler Infrastrukturen, die fachlich kontrolliert, transparent dokumentiert und offen nachnutzbar sein sollten ( Adorni & Bellini 2025;  Schneider 2022).

Gerade diese Transparenz ist zentral. In der Geschichtswissenschaft ist es unverzichtbar, dass Datenherkunft, Trainingsmaterialien, Modellgrenzen und potentielle Verzerrungen dokumentiert werden. Das dient nicht nur der Reproduzierbarkeit, sondern ist selbst ein Beitrag zu historischer Kritik: KI-Modelle reproduzieren immer auch die Ausschnitte der Vergangenheit, die sie gesehen haben. Wer sie nutzt, muss wissen, wessen Stimmen fehlen ( Digital History Bielefeld 2025;  Guldi 2024).

Herausforderungen und Grenzen des KI-Einsatzes

Der wissenschaftliche Einsatz von KI in der Geschichtswissenschaft bringt klare Chancen, aber auch bekannte Grenzen und offene Fragen mit sich.

  • Faktentreue und Halluzination: Generative Sprachmodelle formulieren ausgesprochen plausible Texte, können aber historische Fakten falsch datieren, Akteurinnen und Akteure falsch zuordnen oder Quellen erfinden. Diese Halluzinationen sind keine Randerscheinung, sondern Teil der Funktionsweise solcher Modelle ( Guldi 2024). In der historischen Arbeit heißt das: KI-gestützte Zusammenfassungen und Deutungsangebote sind Ausgangspunkte für Prüfung, nicht Endprodukte.
  • Bias und Überlieferungslücken: Historische Quellen sind nie neutral. Wer Zugang zu Schriftlichkeit hatte, wessen Stimme archiviert wurde, welche Akten überlebt haben, all das spiegelt Macht- und Ungleichheitsverhältnisse. KI-Modelle übernehmen solche Verzerrungen. Wenn etwa koloniale Verwaltungsakten überrepräsentiert sind, wird ein Modell koloniale Perspektiven als Normalfall internalisieren ( Guldi 2024;  Digital History Bielefeld 2025). Das kann dazu führen, dass marginalisierte Perspektiven algorithmisch unterbelichtet bleiben. Zugleich kann genau dieses Problem produktiv gemacht werden: Die offensichtlichen Lücken und Schieflagen in KI-Ausgaben zwingen dazu, Kategorien, Begriffe und Interpretationsraster kritisch zu reflektieren ( Digital History Bielefeld 2025). Das ist ein wissenschaftlicher Gewinn, aber es bleibt ein reflektierter, nicht automatischer Gewinn.
  • Erklärbarkeit und Nachvollziehbarkeit: Historische Argumentation muss überprüfbar sein. Deshalb ist in der geisteswissenschaftlichen KI-Debatte Erklärbarkeit kein optionales Extra, sondern konstitutiv: Historikerinnen und Historiker müssen nachvollziehen können, wie und warum ein Modell ein Dokument klassifiziert oder eine Zuordnung vorschlägt ( Adorni & Bellini 2025). In der Praxis bedeutet das, dass Black Box-Systeme problematisch sind, wenn sie Ergebnisse liefern, die nicht rückführbar auf konkrete Textstellen oder Evidenzen sind. Ein zentrales Anliegen aktueller Diskussionen ist, dass Trainingsdaten, Prompt-Strategien und Modellkonfigurationen offengelegt werden müssen, damit Ergebnisse wissenschaftlich überprüfbar bleiben. Sonst droht, dass die Geschichtswissenschaft Ergebnisse übernimmt, die methodisch nicht mehr rückführbar sind ( Adorni & Bellini 2025;  Götter 2024). Das erweitert die klassische Quellenkritik (Echtheit, Überlieferung, Kontext, Intention) um eine „Modellkritik": Historikerinnen und Historiker müssen die Modellkette – Trainingskorpus, Fine-Tuning, Inferenz – kritisch prüfen und dokumentieren ( Adorni & Bellini 2025;  Götter 2024).
  • Wissenschaftliche Integrität und Lehre: In der Vermittlung historischer Kompetenz (insbesondere in Studium und Lehre) stellt KI neue Fragen. Wenn KI Formulierungen glättet, übersetzt oder sogar erste Argumentationsgrundgerüste liefert, müssen Hochschulen klären, wie Eigenleistung, Quellenarbeit und Reflexionsvermögen sichtbar gemacht werden (  Götter 2024​​​​​​​). Statt KI grundsätzlich zu verbieten, zeichnet sich eher ein Paradigma ab, das auf deklarierte Nutzung, Transparenz und reflektierte Anwendung zielt ( Adorni & Bellini 2025;  Götter 2024​​​​​​​).

Insgesamt verlangt der Einsatz von KI in der Geschichtswissenschaft ein hohes Maß an Quellenkritik, methodischer Transparenz und fachlicher Verantwortung. Das gilt sowohl für die Auswertung historischer Daten als auch für die Kommunikation historischer Ergebnisse in einer Öffentlichkeit, die zunehmend mit KI-generierten Inhalten konfrontiert ist ( Digital History Bielefeld 2025). Zugleich ist es geboten, den Mut zu finden, diese Entwicklungen aktiv mitzugestalten und vorzudenken, um nicht später zu Konsumenten renditegetriebener Angebote zu werden, bei denen überdies ökonomische Möglichkeiten den Zugang zur Nutzung regulieren und Manipulation durch prinzipielle Intransparenz nur schwer ausgeschlossen werden kann. 

Governance und Verantwortung: Perspektiven der „Cyber Humanities"

Programmatische Beiträge aus den Digital Humanities und den sogenannten „Cyber Humanities" fordern daher drängend und zurecht, dass geisteswissenschaftliche Fächer aktiv an der Gestaltung von KI-Infrastrukturen beteiligt sind – nicht nur als Nutzerinnen, sondern als Mitgestalterinnen. Ziel ist, historisches Wissen, kulturelles Erbe und gesellschaftliche Erinnerung nicht exklusiv in proprietäre, privatwirtschaftliche Modelle auszulagern, sondern in gemeinwohlorientierten, dokumentierten, nachhaltigen Infrastrukturen zu verankern („human-centered AI") ( Adorni & Bellini 2025).

Für eine Professur oder einen Arbeitsbereich heißt das konkret: Aufbau kuratierter Trainings- und Analysekorpora, Kooperation mit Informatik und Data Science zur Entwicklung offener, nachnutzbarer Modelle, Verankerung von Prompt- und Modellkritik in Lehre und Forschung, und klare Kommunikation gegenüber Öffentlichkeit und Studierenden, dass KI-gestützte Verfahren den methodischen Kern historischer Forschung nicht ersetzen, sondern erweitern ( Adorni & Bellini 2025;  Götter 2024​​​​​​​).

Erkenntnisse
  • KI ist gegenwärtig dabei, die Arbeitsökonomie und die Methodik aber auch die Reichweite geschichtswissenschaftlicher Forschung deutlich zu verändern. Sie ermöglicht es, große Mengen historischer Materialien schneller zugänglich zu machen, sie liefert strukturierende Vorschläge (Netzwerke, Themen, Datierungen, Kandidaten für relevante Akteurinnen und Akteure) und unterstützt beim Übersetzen, Zusammenfassen und Ordnen von Quellen ( Spina 2023;  Guldi 2024;  McRae 2025). Diese Werkzeuge können die Reichweite historischer Forschung vergrößern: inhaltlich, sprachlich, geographisch.
  • Gleichzeitig bleibt festzuhalten: KI ersetzt die historische Methode nicht. Die Grundprinzipien der Geschichtswissenschaft (Quellenkritik, Kontextualisierung, Interpretation, argumentative Darstellung) bleiben intakt ( Götter 2024). KI verschiebt eher die Schwelle dessen, was in vertretbarer Zeit empirisch überhaupt erschließbar ist. Sie dient damit als Assistenzsystem zur Skalierung, nicht als Ersatz historischer Urteilsbildung ( Götter 2024;  Digital History Bielefeld 2025).
  • Star zukunftsweisend scheint die Perspektive fachspezifischer Modelle, die auf historischen Korpora trainiert werden. Projekte wie SikuGPT oder GujiBERT/GujiGPT ( Liu et al. 2023​​​​​​​​​​​​​​) oder die epigraphischen Modelle in der Altertumswissenschaft zeigen, dass sich KI so trainieren lässt, dass sie historische Sprachstufen, Gattungen und Praktiken besser erfasst als generische Systeme und damit als echte Forschungsinfrastruktur für die Geschichtswissenschaft dienen kann ( Liu et al. 2023;  McRae 2025;  Adorni & Bellini 2025). Solche Modelle sind bislang spezialisiert (auf eine Sprache, eine Epoche, eine Quellengattung), nicht allgemein. Aber sie markieren einen strukturellen Wandel: Die Geschichtswissenschaft beginnt, nicht nur KI zu benutzen, sondern sie als Teil ihrer eigenen Infrastruktur mitzugestalten.

Auf diese Art und Weise eröffnet KI keine simple Automatisierung von Geschichtsschreibung, sondern einen methodisch reflektierten Weg, geschichtswissenschaftliche Forschung zu erweitern: mehr Material, mehr Zugänge, mehr Vergleichsmöglichkeiten, bei gleichzeitiger Verpflichtung zur kritischen Einordnung, Transparenz und Verantwortung in der Deutung der Vergangenheit ( Guldi 2024;  Adorni & Bellini 2025;  Digital History Bielefeld 2025).

Literaturverzeichnis

Adorni, G. & Bellini, E. (2025). Towards a Manifesto for Cyber Humanities: Paradigms, Ethics, and Prospects.  arXiv Preprint 2508.02760. (Positionspapier zur Rolle von KI in den Geisteswissenschaften, inkl. Transparenz- und Erklärbarkeitsanforderungen.)

Digital History Bielefeld (2025). KI in der historischen Forschungspraxis. Projekt- und Arbeitsberichte der Digital History / Universität Bielefeld, 2024–2025.  https://www.uni-bielefeld.de/fakultaeten/geschichtswissenschaft/abteilung/arbeitsbereiche/digital-history/ (Dokumentation laufender Workflows zu HTR, LLM-gestützter Entitätenerkennung, Forschungsdatenkuratierung und Lehre.)

Dissinet (2025). Extracting data from historical texts using Large Language Models.  https://dissinet.cz/news/articles/extracting-data-from-historical-texts-using-large-language-models (Forschungsnotizen und Projektdokumentation im Umfeld des DISSINET-Projekts zu Inquisitions- und Gerichtsquellenanalyse.)

Eberle, O.; Büttner, J.; El-Hajj, H.; Montavon, G.; Müller, K.-R.; Valleriani, M. (2023). Insightful analysis of historical sources at scales beyond human capabilities using unsupervised Machine Learning and XAI.  arXiv Preprint 2310.09091. (Demonstration skalierter, erklärbarer ML-Analysen frühneuzeitlicher Wissenszirkulation.)

Farrell, M. J.; Le Guillarme, N.; Brierley, L.; Hunter, B.; Scheepens, D.; Willoughby, A.; Yates, A.; Mideo, N. (2024). The changing landscape of text mining: a review of approaches for ecology and evolution. Proceedings of the Royal Society B: Biological Sciences, 291(2027), 20240423. DOI:  10.1098/rspb.2024.0423 (Übersichtsarbeit zu Text Mining und semantischer Modellierung in großen Textkorpora.)

Götter, C. (2024). Künstliche Intelligenz und Geschichtswissenschaft. Mehr als ein neues Werkzeug der Digital History? Historische Zeitschrift, 319(2), 299–330. DOI:  10.1515/hzhz-2024-0026 (Analyse des geschichtswissenschaftlichen Forschungsprozesses entlang klassischer Schritte wie Heuristik, Kritik, Interpretation, Darstellung und Einordnung aktueller KI-Praktiken.)

Guldi, J. (2024). The Revolution in Text Mining for Historical Analysis is Here. The American Historical Review, 129(2), 519–543. DOI:  10.1093/ahr/rhae163 (Peer-reviewter Beitrag zur Skalierung historischer Textanalyse durch maschinelle Verfahren, inkl. Diskussion von Bias, Halluzination und Deutungshoheit.)

Handler, A.; Mahyar, N.; O'Connor, B. (2022). ClioQuery: Interactive Query-Oriented Text Analytics for Comprehensive Investigation of Historical News Archives.  arXiv Preprint 2204.04694.

Huff, D. (2024). Altbestandserschließung mit KI-Anwendungen.  b.i.t. online, 27(6).

Humphries, M. et al. (2024). Unlocking the Archives: Using Large Language Models to Transcribe Handwritten Historical Documents.  arXiv Preprint 2411.03340. (Positions- und Infrastrukturpapier zur Nutzung großskaliger LLM-Pipelines in Archiven.)

Liu, C.; Wang, D.; Zhao, Z.; Hu, D.; Wu, M.; Lin, L.; Shen, S.; Li, B.; Liu, J.; Zhang, H.; Zhao, L. (2023). SikuGPT: A Generative Pre-trained Model for Intelligent Information Processing of Ancient Texts from the Perspective of Digital Humanities.  arXiv Preprint 2304.07778. (Beispiel für ein domänenspezifisch weitertrainiertes Foundation Model für vormoderne chinesische Texte.)

McRae, M. (2025). Southern Newswire Corpus: A Large-Scale Dataset of Mid-Century Wire Articles Beyond the Front Page.  arXiv Preprint 2502.11866. (Beschreibung eines groß angelegten Presse-/Nachrichtenkorpus mit KI-gestützter Bereinigung und Annotation als Grundlage für domänenspezifische Analysemodelle.)

Nockels, J.; Gooding, P.; Ames, S.; Terras, M. (2022). Understanding the application of handwritten text recognition technology in heritage contexts: A systematic review of Transkribus in published research. Archival Science, 22(3), 367–392. DOI:  10.1007/s10502-022-09397-0.

Schneider, J. (2022). Foundation models in brief: A historical, socio-technical focus.  arXiv Preprint 2212.08967. (Grundlegende Einordnung von Foundation Models als wissenschaftliche Infrastrukturmodelle, inkl. der Idee disziplinspezifischer Weiterentwicklungen.)

Silcock, E.; Arora, A.; D'Amico-Wong, L.; Dell, M. (2024). Newswire: A Large-Scale Structured Database of a Century of Historical News.  arXiv Preprint 2406.09490. (Rekonstruktion und Annotation historischer Nachrichtentexte 1878–1977.)

Spina, S. (2023). Artificial Intelligence in archival and historical scholarship workflow: HTR and ChatGPT. Umanistica Digitale 16, 125–140 /  arXiv Preprint 2308.02044. (Fallstudien zur Kombination automatischer Handschriftenerkennung, maschineller Normalisierung und LLM-gestützter Hilfsfunktionen in editorischer und archivalischer Praxis.)

Spliethoff, S. (2025). Künstliche Intelligenz als Teil geschichtswissenschaftlicher Praxis. Projekte und Perspektiven der Digital History Bielefeld. Digital History Bielefeld, 23. April 2025. DOI:  10.58079/14jcv.

Wolf, F.; Tüselmann, O.; Matei, A.; Hennies, L.; Rass, C.; Fink, G. A. (2025). CM1 – A Dataset for Evaluating Few-Shot Information Extraction with Large Vision Language Models. In: Yin, X.-C.; Karatzas, D.; Lopresti, D. (Hg.): Document Analysis and Recognition – ICDAR 2025, Part II. Cham: Springer, S. 23–39. Preprint verfügbar unter:  https://arxiv.org/abs/2505.04214.