Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Thật nực cười khi OpenAI tuyên bố đạt 74,9% trên SWE-Bench chỉ để chứng minh họ vượt qua 74,5% của Opus 4.1...
Bằng cách chạy trên 477 bài toán thay vì 500 bài đầy đủ.
Thẻ hệ thống của họ cũng chỉ nói 74%.

Nguồn:
Và vâng, tôi biết họ luôn báo cáo về mẫu số 477, nhưng đó KHÔNG phải là "SWE-Bench verified", đó là một chỉ số hoàn toàn khác, đó là "tập con của OpenAI về SWE Bench Verified" và con số đó không thể so sánh.
23,1K
Hàng đầu
Thứ hạng
Yêu thích