KI-Tutoren und Modelle interagieren bei verschiedenen Aufgaben, die reale Interaktionsszenarien mit Grok simulieren.
Bei jeder Interaktion wählt der KI-Tutor basierend auf unseren festgelegten Bewertungskriterien die bessere von zwei von Grok generierten Antworten aus.
Die Ergebnisse zeigen, dass Grok-2 im Vergleich zu Grok-2 mini und Grok-1.5 signifikante Fortschritte in der Fähigkeit zur Schlussfolgerung bei der Verarbeitung abgerufener Inhalte sowie in der Verwendung von Werkzeugen gemacht hat, wie z.B. bei der korrekten Identifizierung fehlender Informationen, der Schlussfolgerung durch Ereignissequenzen und dem Ausschluss irrelevanter Inhalte.
Laut den Benchmark-Ergebnissen übertrifft Grok-2 im Wesentlichen GPT-4 Turbo und Claude 3 Opus und kann sogar in der Leistung mit GPT-4o und Llama 3-405B mithalten.
Allerdings gibt es bei den von xAI offengelegten Benchmark-Ergebnissen auch einige "Feinheiten". Obwohl es heißt, dass es mit GPT-4o gleichauf sei, wurden die Ergebnisse von GPT-4o und GPT-4 Turbo vom Mai verwendet, was Zweifel aufkommen lässt, ob dies eine zeitliche Manipulation zur Verschönerung der Ergebnisse ist.
Guodong Zhang, Mitglied des xAI-Teams, schrieb:
Interessanterweise entwickeln wir uns im Gegensatz zu den meisten anderen Unternehmen und Laboren so schnell, dass wir nie Zeit hatten, formelle technische Berichte für jedes Modell zu verfassen.
Darüber hinaus betonte xAI, dass Grok-2 im MMLU-Benchmark für großes multitask-Sprachverständnis ein Grok-2 ohne spezifisches Aufgabentraining verwendete, was die Generalisierungsfähigkeit und Anpassungsfähigkeit des Modells an neue Aufgaben realistischer widerspiegelt. Kurz gesagt, es mag zwar schwach sein, aber es ist authentisch.
Jetzt werden Grok-2 und Grok-2 mini schrittweise in die X-Plattform integriert, und X Premium- und Premium+-Nutzer können beide neuen Modelle erleben.
Offiziell heißt es, dass Grok-2 Text- und visuelle Verständnisfähigkeiten besitzt und Informationen von der X-Plattform in Echtzeit integrieren kann. Grok-2 mini ist kompakt und elegant und findet eine Balance zwischen Geschwindigkeit und Antwortqualität.
Die größte Veränderung von Grok-2 im Vergleich zu seinen Vorgängern ist die Fähigkeit, direkt Bilder zu generieren. Laut internen Mitgliedern des xAI-Teams wird für die Bildgenerierung das kürzlich populär gewordene FLUX.1-Modell verwendet.
Nutzer haben festgestellt, dass es bei Grok-2 Beschränkungen für die Anzahl der generierten Bilder gibt. Premium-Nutzer können voraussichtlich etwa 20-30 Bilder generieren, während Premium+-Nutzer mehr generieren können.
Die klassische Herausforderung "Welches ist größer, 9.8 oder 9.11?" stellt für Grok-2 kein Problem dar. Es kann sogar zählen, wie viele "r" in "strawberry" vorkommen.
Der begeisterte Musk retweetete mehrere Beiträge über Grok 2, um es stark zu bewerben und zu promoten, und lobte die hervorragende Fortschrittsgeschwindigkeit des xAI-Teams.
Ohne Werbung zu betrachten, sondern die Wirkung, scheint Grok-2 eher ein Modell zu sein, dessen Bedeutung größer ist als seine praktische Anwendung. Seine Veröffentlichung bedeutet, dass die gesamte KI-Branche beginnt, neue GPT-4-ähnliche Modelle zu begrüßen, aber es bringt möglicherweise nicht genug Überraschungen mit sich.
Im April dieses Jahres sagte Musk in einem Interview mit Nicolai Tangen, dem Leiter des norwegischen Staatsfonds, dass Grok-2 etwa 20.000 H100-Chips für das Training benötigt.
Letzten Monat, während der Aufwärmphase für Grok-2, enthüllte Musk auch, dass Grok-3 100.000 NVIDIA H100-Chips für das Training verwendet und voraussichtlich Ende des Jahres veröffentlicht wird. Zu diesem Zeitpunkt wird es möglicherweise das stärkste KI-Großmodell sein.
Dafür scheute Musk nicht davor zurück, Teslas Chips für das xAI-Team zu verwenden, was zu Unzufriedenheit unter Tesla-Investoren führte.
Erwähnenswert ist, dass Musk bei einer kürzlichen X Space-Veranstaltung weiterhin zuversichtlich bezüglich der Zukunft der KI war.