Googles neuer KI-Agent kann alleine einkaufen | ABC-Z
Googles neues Sprachmodell Gemini 2.0 soll die Grundlage für KI-Assistenten werden, die in Zukunft komplexe Aufgaben selbst in die Hand nehmen. Zum Jahrestag der ersten Gemini-Premiere in Mountain View veröffentlicht Google heute das Sprachmodell Gemini 2.0 Flash. Es ist das erste experimentelle Modell der Gemini 2.0-Modellfamilie. Dieses „Arbeitsmodell mit geringer Latenz und verbesserter Leistung“ steht heute allen Gemini-Nutzern im Chat sowie Entwicklern über eine API zur Verfügung. Damit lenkt Google in einer Zeit, die vollgepackt ist mit Ankündigungen neuer KI-Modelle, das Rampenlicht auf sich. Zudem verschärft Google seinen Fokus auf KI-basierte Agenten – und könnte damit sogar Open AI zuvorkommen.
„Bei Gemini 2.0 geht es darum, viel nützlicher zu sein“, sagte Google-CEO Sundar Pichai. In der ersten Version von Gemini hätte der Fokus eher darauf gelegen, Informationen zu organisieren und zu verstehen. Seit längerem arbeitet Google zum Beispiel an „Project Astra“, einem universellen KI-Agenten, der ausgewählten Testern zur Verfügung steht und mit Gemini 2.0 noch „besser“ werden soll. Astra könnte künftig auf dem Smartphone als Assistent agieren und Tipps liefern, aber auch auf einer smarten Brille. Dann ist da noch „Jules“, ein Programmier-Agent für Entwickler, den Google für den Workflow mit der Entwicklerplattform Github optimiert hat und von Testern auf die Probe gestellt wird.
Mit „Project Mariner“ kündigt Google nun einen KI-Agenten an, der die Fähigkeiten von Gemini 2.0 optimal auskosten soll. Das neue Sprachmodell werde in der Lage sein, intelligente Werkzeuge zu nutzen und direkt auf Google-Produkte zugreifen zu können – darunter etwa die Google-Suche. „Diese Fähigkeiten ergeben Agenten, die denken, sich erinnern, planen und sogar Maßnahmen in Namen der Anwenderinnen und Anwender ergreifen können“, sagte Google-Managerin Tulsee Doshi. „Mariner“ könne sich wie ein menschlicher Nutzer in einem Browser verhalten und klicken, scrollen und sogar Einkäufe tätigen. Bevor eine Bestellung abgeschickt wird, müsse der Nutzer aber immer eine Bestätigung abgeben, sagte Doshi. Aber auch „Mariner“ befindet sich noch in der Testphase.
Google Gemini hinkte bislang hinterher
Da es sich bei Googles veröffentlichtem Sprachmodell noch um einen Vorläufer handelt, wird es vorerst schwierig zu beurteilen, wie leistungsstark Gemini 2.0 wirklich sein wird. Die Argumentationsfähigkeiten von Gemini 2.0 will Google bereits in AI Overviews integrieren, den KI-Zusammenfassungen in der Google Suche. Damit sollen mehrstufige Fragen wie zum Beispiel fortgeschrittene mathematische Gleichungen oder Programmieraufgaben gelöst werden können. Die AI Overviews sind allerdings noch nicht in Deutschland verfügbar. Gemini Advanced-Nutzer, die ein Abonnement für 22 Euro im Monat abgeschlossen haben, erhalten außerdem Zugriff auf eine neue Funktion namens Deep Research.
Erst vergangene Woche stellte der Konkurrent Open AI sein bisher leistungsstärkstes Sprachmodell GPT o1 vor, das auf komplexe Denkaufgaben spezialisiert ist. Zwar benötigt es mehr Rechenleistung und antwortet langsamer, liefert aber in vielen Aufgabestellungen bessere Ergebnisse als seine Vorgänger. PRO Digitalwirtschaft hat das Modell bereits getestet und ihm Aufgaben aus dem PISA-Test gestellt, die o1 korrekt berechnen und begründen konnte. Aber auch das Modell Claude 3.5 Sonnet des Konkurrenten Anthropic lieferte gute Ergebnisse. Ein Anbieter hinkte im Test aber hinterher: Google. Google Gemini schlug zwar mehrere Ansätze vor, ging aber oft nicht konkret auf die gestellte Aufgabe ein. Für die Berechnungen war menschliche Hilfe erforderlich – und auch dann schlichen sich Fehler im Ergebnis ein.
In puncto KI-Agenten präsentiert sich Google allerdings deutlich fortschrittlicher als seine Konkurrenz. Im November berichtete die Nachrichtenagentur Bloomberg, dass Open AI an der Einführung eines neuen KI-Agenten namens „Operator“ arbeitet, der zum Beispiel das Schreiben von Code oder die Buchung von Reisen übernehmen soll. Das Projekt befinde sich aber noch im Alpha-Test.
Im Januar des kommenden Jahres könnte „Operator“ dann in die Beta-Phase übergehen und als Vorschau für Forscher und Entwickler zur Verfügung stehen. Open AI selbst sprach bislang noch nicht öffentlich über das Projekt. Google trumpft unterdessen mit gleich mehreren KI-Agenten auf und kann bereits konkrete Anwendungsfälle vorlegen. Das deutet darauf hin, dass das Unternehmen hier gerade die Nase vorn hat.