Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Paul Graham đã đăng lại
Đôi khi thật khó để nắm bắt tầm quan trọng của những cập nhật về lý luận và logic đang bắt đầu xuất hiện trong các mô hình mạnh mẽ, như GPT-5. Đây là một ví dụ *rất đơn giản* về việc những mô hình này đang trở nên mạnh mẽ như thế nào.
Tôi đã lấy một tài liệu biên bản cuộc gọi thu nhập gần đây của NVIDIA dài 23 trang và có 7,800 từ. Tôi đã lấy một phần của câu "và biên lợi nhuận sẽ cải thiện và trở lại giữa những năm 70" và sửa đổi "giữa những năm 70" thành "giữa những năm 60".
Đối với một nhà phân tích tài chính có mặt từ xa, điều này sẽ trông không hợp lý, vì các biên lợi nhuận sẽ không "cải thiện và trở lại" một con số thấp hơn so với con số được mô tả là cao hơn ở nơi khác. Nhưng có lẽ 95% người đọc thông cáo báo chí này sẽ không phát hiện ra sự sửa đổi vì nó dễ dàng hòa nhập vào 7,800 từ khác được đề cập.
Với Box AI, thử nghiệm một loạt các mô hình AI, tôi đã hỏi một loạt các mô hình "Có lỗi logic nào trong tài liệu này không? Vui lòng cung cấp một câu trả lời ngắn gọn."
GPT-4.1, GPT4.1 mini, và một số mô hình khác đã là công nghệ tiên tiến chỉ ~6 tháng trước đây thường trả lời rằng không có lỗi logic nào trong tài liệu. Đối với những mô hình này, tài liệu có lẽ có vẻ mạch lạc và theo những gì mà nó mong đợi một biên bản thu nhập trông như thế nào, vì vậy không có gì thực sự nổi bật để họ chú ý - kiểu như một ảo giác ngược.
GPT-5, mặt khác, nhanh chóng phát hiện ra vấn đề và phản hồi:
"Có — tài liệu chứa một sự không nhất quán nội bộ về hướng dẫn biên lợi nhuận, có một lúc nói rằng biên lợi nhuận sẽ “trở lại giữa những năm 60” và sau đó nói rằng chúng sẽ “ở giữa những năm 70” vào cuối năm nay."
Thật đáng kinh ngạc, điều này đã xảy ra với GPT-5, GPT-5 mini, và, đáng chú ý, *ngay cả* GPT-5 nano. Hãy nhớ rằng, các token đầu ra của GPT-5 nano được định giá ở mức 1/20 giá của các token của GPT-4.1. Vì vậy, thông minh hơn (trong trường hợp sử dụng này) với 5% chi phí.
Bây giờ, trong khi việc thực hiện các đánh giá lỗi trên các tài liệu kinh doanh không phải là một hoạt động hàng ngày của mọi nhân viên tri thức, những loại vấn đề này xuất hiện theo nhiều cách khi xử lý các tập dữ liệu lớn không có cấu trúc, như tài liệu tài chính, hợp đồng, biên bản, báo cáo, và nhiều hơn nữa. Nó có thể là tìm một sự thật, xác định một sai lầm logic, chạy một giả thuyết, hoặc yêu cầu lý luận suy diễn tinh vi.
Và khả năng áp dụng nhiều logic và lý luận hơn vào dữ liệu doanh nghiệp trở nên đặc biệt quan trọng khi triển khai các AI Agents trong doanh nghiệp. Vì vậy, thật tuyệt vời khi thấy những tiến bộ trong lĩnh vực này ngay bây giờ, và điều này sẽ mở ra rất nhiều trường hợp sử dụng hơn cho các doanh nghiệp.
105,99K
Có người đã hỏi làm thế nào để mở rộng ý tưởng của các startup. Cách tốt nhất là thu nhỏ ý tưởng xuống còn bản chất của nó, sau đó hỏi xem ý tưởng bản chất đó có thể được mở rộng đến mức độ nào. Tuy nhiên, bạn phải thu nhỏ nó trước, nếu không sẽ có những thứ ngẫu nhiên còn lại trong đó cản trở việc mở rộng.
105,24K
Paul Graham đã đăng lại
Chúng tôi đang tổ chức một sự kiện Kỹ thuật Ngữ cảnh tại SF!
Hãy tìm hiểu cách các đội ngũ AI ứng dụng hàng đầu đang thiết kế các cửa sổ ngữ cảnh của họ. Nghe từ:
Jake Heller, Giám đốc điều hành @Casetext
Beyang Liu, Giám đốc công nghệ @Sourcegraph
Sam Bhagwat, Giám đốc điều hành @Mastra_ai
Jeff Huber, Giám đốc điều hành @trychroma
Đăng ký tham gia:

65,02K
Hôm nay tôi đã gặp một người sáng lập, người đã nói rằng anh ấy viết 10.000 dòng mã mỗi ngày nhờ vào AI. Đây có lẽ là trường hợp giới hạn. Anh ấy là một lập trình viên xuất sắc, rất am hiểu các công cụ AI, và anh ấy đang nói về một ngày làm việc 12 giờ. Nhưng anh ấy không ngây thơ. Đây không phải là 10.000 dòng mã đầy lỗi.
123,24K
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất