Elon Musk: Unfreiwillig stellt Grok 3 eine der großen Hoffnungen der Tech-Branche infrage | ABC-Z

Elon Musk stellt sein neues KI-Modell Grok 3 vor. Es soll „die Wahrheit“ verkünden und auch politisch inkorrekte Ergebnisse ausspucken. Musk gibt sich überschwänglich enthusiastisch. Das Urteil der Experten fällt hingegen nüchtern aus.
Elon Musk hat in der Nacht zum Dienstag die neueste Version der künstlichen Intelligenz, Grok 3, vorgestellt. Das große Sprachmodell (LLM) von Musks KI-Firma xAI soll gleichauf liegen mit der Konkurrenz von OpenAI, Google und Meta, sich laut Musk aber von der Konkurrenz absetzen, da es weniger Filter hat. Grok solle „die Wahrheit“ verkünden und „das Universum verstehen“, so Musk. Außerdem soll Grok auch dann Ergebnisse verkünden, wenn diese politisch inkorrekt seien.
Musk hatte Grok 3 per Livestream in seinem sozialen Netzwerk X vorgestellt und verbarg dabei seinen Enthusiasmus für die KI nicht. Er übernahm kurzerhand selbst Teile der Präsentation und fiel seinen Entwicklern zeitweise ins Wort.
Das neue Modell soll besonders gut darin sein, Physik- und Informatikprobleme zu lösen und hat, wie auch die Konkurrenz von OpenAI oder das chinesische DeepSeek-R1-Modell, eine Logikfunktion. Es erfand kurzerhand eine neue Version des Spieleklassikers Tetris und errechnete ein Startfenster für einen Raketenstart zum Mars.
Grok 3 soll die Konkurrenz in Leistungsvergleichen bereits erreicht oder übertroffen haben, Musk veröffentlichte im Nachgang des Livestreams mehrere Statistiken.
Doch das Feld der KI-Benchmarks ist unübersichtlich, Musk zeigte nur solche Auswertungen, bei denen Grok 3 vorn lag. Vor allem aber hatte er in den Benchmarks, die er in der Präsentation zeigte, die Ergebnisse für OpenAIs leistungsfähigstes Modell o3 kurzerhand weggelassen.
Da sowohl OpenAI o3 als auch Grok 3 „Reasoning“ noch nicht öffentlich verfügbar sind, lassen sich die Ergebnisse nur schwer unabhängig prüfen.
Deutlich differenzierter beurteilten KI-Forscher die Leistungsfähigkeit von Grok 3. Sie hatten vorab Zugang zu dem Modell bekommen und kommen zu einem nüchternen Fazit: „Grok 3+ Thinking fühlt sich ungefähr auf dem neuesten Stand der Technik der stärksten OpenAI-Modelle an und ist etwas besser als DeepSeek-R1 und Gemini 2.0 Flash Thinking“, urteilt etwa der Stanford-KI-Forscher Andrej Karpathy. Einen wesentlichen Vorteil für Grok 3 sieht er dagegen nicht. Das Modell scheitert an denselben logischen Problemen, an denen auch die Konkurrenz sich die Zähne ausbeißt, von einer allgemeinen künstlichen Intelligenz ist es weit entfernt.
Karpathy äußerte sich allerdings verblüfft darüber, wie wenig Zeit das xAI-Team dafür benötigt hat, OpenAI einzuholen: Gerade einmal ein Jahr lang sollen die xAI-Forscher an der neuen Grok-Version gearbeitet haben. Die Ergebnisse zeigen einmal mehr, wie knapp das Rennen um die Spitze der Sprach-KI aktuell ist und wie gleich die Probleme, an denen die KI-Firmen aktuell noch scheitern.
Vor allem aber stellen Kritiker wie der KI-Entrepreneur und Autor Gary Marcus angesichts der Ergebnisse infrage, ob der Einsatz von immer mehr Rechenleistung auch immer bessere künstliche Intelligenz bringt. Musk selbst hatte vor der Veröffentlichung betont, dass Grok 3 auf dem Super-Computer von xAI mit mehr Rechenzeit und mehr Trainingsdaten entwickelt wurde als jedes andere Konkurrenzmodell.
Doch die Ergebnisse sind nicht in gleichem Maße besser, das zusätzliche Investment in immer mehr Chip-Leistung scheint sich nur noch begrenzt auszuzahlen. Damit stellt Grok 3 unfreiwillig eine der großen Hoffnungen der Branche infrage – nämlich, dass mehr Rechenleistung eines Tages die übermenschliche Super-KI hervorbringen werde. Das wird insbesondere deutlich, wenn man der KI komplexe Fragen stellt, die nicht denen in den aktuellen Benchmarks entsprechen.
Dann nämlich versagt nicht nur Grok 3, sondern auch viele Konkurrenten. Der Verdacht liegt nahe, dass aktuelle Modelle in Hinblick auf gängige Leistungsvergleiche hin optimiert werden.
Sobald aber Fragen auftauchen, deren Schema nicht denen in den Benchmarks entspricht, sind die KI-Algorithmen überfordert. Kritiker Marcus stellt heraus, wie einfach sich Fragen finden lassen, mit denen alle großen Modelle aktuell überfordert sind. „Keine bahnbrechenden Neuerungen, kein großer Sprung nach vorn. Halluzinationen wurden nicht auf magische Weise gelöst“, kommentiert Marcus. „Allerdings wird der Vorsprung von OpenAI immer kleiner, sodass die Preiskämpfe weitergehen und alle außer Nvidia weiterhin kaum Gewinne machen können.“
Bei Grok 3 jedoch steht noch ein anderer Verdacht im Raum: Augenscheinlich wurde die KI darauf trainiert, die politischen Ansichten von Elon Musk zu vertreten – von Neutralität ist wenig zu sehen.
Musk selbst veröffentlicht Antworten von Grok, die sehr an Musks eigene Äußerungen erinnern. Demnach antwortet Grok auf Fragen nach neutraler Information vor allem mit Werbung für Musks eigenes soziales Netzwerk X.
Benedikt Fuest ist Wirtschaftskorrespondent für Innovation, Netzwelt und IT.