KI versagt bei einfachem Aufmerksamkeitstest
Top-Modelle fallen von 91% auf 15% Genauigkeit, wenn die Aufgaben länger werden

Künstliche Intelligenz kann Aufsätze schreiben, Fragen beantworten und komplexe Probleme lösen. Doch neue Forschung zeigt, dass sie an einer alltäglichen menschlichen Fähigkeit scheitert: dem Fokussieren auf eine Aufgabe, wenn Ablenkungen auftauchen.
Forscher um Suketu Patel unterzogen mehrere führende KI-Modelle einem bekannten psychologischen Experiment, dem Stroop-Test. Dabei werden Farbwörter wie „rot“ oder „blau“ in farbiger Tinte gedruckt – mal passend (das Wort „rot“ in roter Tinte), mal widersprüchlich („rot“ in blauer Tinte). Die Aufgabe ist, die Tintenfarbe zu nennen, nicht das Wort zu lesen. Das klingt einfach, ist aber für Menschen eine Herausforderung, weil das Lesen automatisch abläuft und unterdrückt werden muss.
Die Ergebnisse waren ernüchternd: Bei kurzen Listen mit fünf Wörtern schnitten die KI-Modelle noch gut ab. GPT-4o erreichte 91% Genauigkeit. Doch schon bei zehn Wörtern fiel die Leistung auf 57%, bei vierzig Wörtern auf nur 15%. Claude 3.5 Sonnet hielt bis zu zwanzig Wörtern stabil, brach dann aber auf 24% ein. Ähnliche Muster zeigten sich bei GPT-5, Claude Opus 4.1 und Gemini 2.5.
Besonders auffällig: Wenn passende und widersprüchliche Wörter in derselben Liste vorkamen, sank die Genauigkeit für die widersprüchlichen Items teilweise auf nahe null. Die KI-Modelle schienen die Anweisung, die Tintenfarbe zu identifizieren, nicht durchhalten zu können und verfielen zunehmend darauf, die Wörter selbst zu lesen – also das, worauf sie am stärksten trainiert sind.
Menschen haben einen ähnlichen Konflikt: Sie sind viel besser im Lesen als im Benennen von Farben. Dennoch können die meisten auch bei langen Listen stabil bleiben. Die Studie zeigt, dass die Aufmerksamkeitsprozesse von KI grundlegend anders funktionieren als die des menschlichen Gehirns. Während Menschen Ablenkungen ausblenden und ein Ziel verfolgen können, scheitern aktuelle KI-Modelle an dieser kognitiven Kontrolle, wenn die Aufgabe anspruchsvoller wird.
Die Forscher betonen, dass dies auf fundamentale Grenzen heutiger großer Sprachmodelle hinweist. Auch wenn KI menschliches Verhalten manchmal nachahmen kann, unterscheidet sich ihre Fähigkeit, Aufmerksamkeit aufrechtzuerhalten, grundlegend von der des Menschen. Die Ergebnisse erinnern daran, dass selbst die fortschrittlichsten KI-Systeme noch Schwächen haben – besonders wenn es darum geht, Ablenkungen zu widerstehen und über längere Informationssequenzen hinweg fokussiert zu bleiben.
Diese Geschichte ist zu gut, um sie für sich zu behalten.
So erzählst du es weiter
„Hast du schon mal was vom Stroop-Test gehört? KI versagt kläglich, wo Menschen mühelos bestehen."
Magst du solche Geschichten?
Hol dir jeden Morgen eine — kuratiert, belegt, werbefrei. Kein Doomscrolling.
Weiteres aus wissenschaft
KI-Impfstoff gegen Coronaviren besteht ersten Test am Menschen
Ein von KI entwickelter Impfstoff wirkt gegen mehrere Coronaviren gleichzeitig – und schützt sogar vor noch unbekannten Varianten.
Über 1.000 unbekannte Korallenriffe vor Australien entdeckt
Satellitenbild-Überlagerung enthüllt tausende Riffe in trüben Gewässern Nordaustraliens
KI warnt Badegäste an der Ostsee vor gefährlichen Vibrionen
Frühwarnsystem sagt Bakterien bis zu fünf Wochen im Voraus voraus – basierend auf 1.500 Wasserproben