GPT-5 Systemkarte Fähigkeitsbewertungen Reaktionen Thread. Erste Beobachtung: ~keine Verbesserung bei allen Codierungsbewertungen, die nicht SWEBench sind.
Sehr cooler neuer Maßstab
Interessant, dass das Modell nicht nur wusste, dass es sich in einer Auswertung befand, sondern auch die genaue Aufgabe und die Organisation, die sie durchführte.
37,77K