22. Oktober 2025, 8:30 Uhr | Lesezeit: 3 Minuten
Große KI-Modelle wie ChatGPT oder das deutsche Sprachmodell LeoLM gelten als neutral – sind es aber offenbar nicht. Eine neue Untersuchung der Hochschule München zeigt, dass die Systeme systematisch Vorurteile gegenüber Ostdeutschen übernehmen und verstärken. Besonders deutlich fällt das Ergebnis für Sachsen-Anhalt aus, das in den Bewertungen der Künstlichen Intelligenzen regelmäßig am schlechtesten abschneidet.
Wie „Heise“ berichtet, stammt die Studie mit dem Titel „Saxony-Anhalt is the Worst“ von Informatikprofessorin Anna Kruspe und ihrer Mitarbeiterin Mila Stillman. Die Forscherinnen wollten herausfinden, ob sogenannte Large Language Models (LLMs) gesellschaftliche Vorurteile aus ihren Trainingsdaten übernehmen. Dafür ließen sie verschiedene KI-Modelle, darunter ChatGPT und LeoLM, die 16 deutschen Bundesländer in Kategorien wie Fleiß, Attraktivität, Sympathie und Arroganz bewerten.
KI bewertet Ostdeutsche schlechter
Die Ergebnisse sind eindeutig: Ostdeutsche Bundesländer schneiden in fast allen Kategorien schlechter ab als westdeutsche. Den Menschen im Osten bescheinigten die Modelle weniger Fleiß und geringere Attraktivität, zugleich aber auch weniger Arroganz. Ein insgesamt widersprüchliches Bild, das auf eine systematische Verzerrung hindeutet. „Das Modell übernimmt das gesellschaftlich gelernte Muster, den Osten pauschal schlechter zu bewerten, ohne dabei logisch zu bleiben“, erklärt Kruspe.
Selbst bei neutralen Fragen wiederholten die Systeme diese Ungleichbehandlung. Auf die Frage nach der durchschnittlichen Körpertemperatur der Bewohner jedes Bundeslandes ordneten einige Modelle den Ostdeutschen sogar niedrigere Werte zu. „Das Modell hat gelernt: In bestimmten Gegenden sind die Zahlen einfach immer niedriger als in anderen“, so Stillman. Die Verzerrung entstehe also nicht durch die Fragestellung, sondern sei tief im System selbst verankert.
ChatGPT erfindet Verbrechen! Datenschützer reichen Beschwerde ein
DKB stellt Kundensupport komplett um! Das sind die Folgen für Bankkunden
Vorurteile mit realen Folgen
Besonders gefährlich wird das, wenn solche Systeme in sensiblen Bereichen eingesetzt werden, etwa bei Bewerbungen, Kreditprüfungen oder automatisierten Bewertungen. Die Forscherinnen warnen, dass KI-basierte Systeme unbewusst Diskriminierung reproduzieren könnten, wenn sie regionale Sprachmuster oder Herkunftsmerkmale negativ bewerten.
Zwar testeten Kruspe und Stillman sogenannte „Debiasing Prompts“, also Anweisungen an die KI, Herkunft und Region bei der Bewertung außen vorzulassen. Doch die Ergebnisse waren ernüchternd. „Verlässlich ist das aber leider nicht“, sagt Kruspe. Die Verzerrung sei so tief in den Trainingsdaten verankert, dass einfache Korrekturanweisungen kaum Wirkung zeigten.
Auch interessant: Lustige KI-Videos und -Fotos? Dahinter steckt ein echtes Problem
Politik fordert faire KI-Systeme
Die EU und die Bundesregierung verlangen, dass Künstliche Intelligenz fair und diskriminierungsfrei eingesetzt wird. Der Bericht aus München zeigt jedoch, dass dieses Ziel bislang kaum erreicht ist. KI-Systeme lernen aus den Daten, die sie im Internet finden und übernehmen dabei auch alte Klischees und gesellschaftliche Schieflagen.
Das Fazit der Forscherinnen ist eindeutig: Ohne gezielte Maßnahmen gegen strukturelle Vorurteile könnte der Einsatz von Sprachmodellen im Alltag zu echter Benachteiligung führen.