KI-Zusammenfassungen bei Google bleiben fehleranfällig

Manuel Bauer

20. April 2026, 7:46 Uhr | Lesezeit: 3 Minuten

Seit etwa zwei Jahren nutzt die Suchmaschine von Google die KI-Übersicht, um die wichtigsten Suchergebnisse zusammenzufassen. Diese Inhalte erscheinen ganz oben in den Suchergebnissen. Laut einer aktuellen Untersuchung zeigt sich dabei jedoch eine gemischte Zuverlässigkeit.

Das Problem der Verbreitung von falschen Informationen im Internet besteht seit Jahren. Die KI-Zusammenfassungen von Google könnten dieses Problem sogar verstärken. Das zeigt eine Untersuchung der „New York Times“ in Zusammenarbeit mit dem KI-Unternehmen Oumi. Die Trefferquote der KI-generierten Antworten liegt demnach bei 91 Prozent. Das ist zwar eine Verbesserung gegenüber früheren Werten, bedeutet aber auch, dass etwa jede zehnte Antwort falsch ist. Hochgerechnet auf die weltweite Nutzung der Google-Suche entspricht das mehreren Hunderttausend falschen Aussagen pro Minute und Millionen pro Stunde.

Testmethode und Entwicklung der Genauigkeit

Für die Untersuchung wurde das KI-Tool „SimpleQA“ von OpenAI genutzt. Es überprüft mit mehr als 4000 Fragen, wie zuverlässig KI-Systeme arbeiten. 2025 lag die Genauigkeit der Google-KI-Suche noch bei 85 Prozent. Nach einem Update von Gemini 2.5 auf Version 3.0 stieg der Wert auf 91 Prozent.

Google kritisierte die Ergebnisse der Studie gegenüber der „New York Times“. Das Unternehmen erklärte, dass SimpleQA nicht realistisch sei und falsche Informationen nutze. Außerdem bilde es nicht ab, wie echte Nutzer suchen. Google selbst setzt auf ein eigenes Testsystem namens „Simple QA verified“. Dieses arbeitet mit weniger, dafür sorgfältiger ausgewählten Fragen.

KI-generierte Deepfakes Suchmaschinen unternehmen kaum etwas gegen gefälschte Promi-Nacktbilder

Vorfälle fast verfünffacht KI missachtet immer häufiger Regeln

Beispiele zeigen Schwächen der KI

Die Untersuchung zeigt anhand einzelner Beispiele, dass die KI nicht immer korrekt arbeitet. So wurde etwa gefragt, in welchem Jahr das ehemalige Wohnhaus von Bob Marley zum Museum wurde. Die KI nutzte mehrere Websites als Quelle, fand dort aber keine klare Antwort und griff schließlich auf Wikipedia zurück. Dort sind jedoch widersprüchliche Daten zu finden und die KI wählte das falsche Jahr.

In einem anderen Beispiel wurde gefragt, wann der Cellist Yo-Yo Ma in eine Hall of Fame für klassische Musik aufgenommen wurde. Die KI antwortete fälschlicherweise, dass es diese Hall of Fame nicht gebe.

Einordnung der Ergebnisse bleibt schwierig

Die Aussagekraft der Untersuchung ist jedoch nicht eindeutig. Kritisch gesehen wird, dass auch das eingesetzte Testmodell selbst Fehler enthalten kann. Dadurch könnten die Ergebnisse beeinflusst sein.

Auch interessant: YouTube bald ohne Videotitel? Neue KI-Funktion im Test

Google weist zudem auf eine Anfrage von „Ars Technica“ darauf hin, dass für unterschiedliche Suchanfragen verschiedene Modelle eingesetzt werden. Häufig kommen dabei günstigere Varianten zum Einsatz. Außerdem gibt das Unternehmen selbst an, dass die Genauigkeit seiner KI-Systeme zwischen 60 und 80 Prozent liegt. Vor diesem Hintergrund erscheint der gemessene Wert von 91 Prozent vergleichsweise hoch.