Thật nực cười khi OpenAI tuyên bố đạt 74,9% trên SWE-Bench chỉ để chứng minh họ vượt qua 74,5% của Opus 4.1... Bằng cách chạy trên 477 bài toán thay vì 500 bài đầy đủ. Thẻ hệ thống của họ cũng chỉ nói 74%.
Nguồn:
Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.
23,1K