Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Thật nực cười khi OpenAI tuyên bố đạt 74,9% trên SWE-Bench chỉ để chứng minh họ vượt qua 74,5% của Opus 4.1... Bằng cách chạy trên 477 bài toán thay vì 500 bài đầy đủ. Thẻ hệ thống của họ cũng chỉ nói 74%.

Nguồn:

Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.

23,1K

Hàng đầu

Thứ hạng

Yêu thích

Onchain thịnh hành

Thịnh hành trên X

Ví funding hàng đầu gần đây

Được chú ý nhất