Chỉ số khả năng của thẻ hệ thống GPT-5 đánh giá phản ứng. Quan sát đầu tiên: ~không có cải thiện nào trên tất cả các đánh giá lập trình không phải SWEBench.
Tiêu chuẩn mới rất tuyệt vời
Thú vị là mô hình không chỉ biết rằng nó đang trong một cuộc đánh giá, mà còn biết chính xác nhiệm vụ và tổ chức đang thực hiện nó.
37,77K