bạn có đang mệt mỏi với chatbot không? thất vọng vì sự kiện singularity đã bị hủy bỏ? bạn đang tìm kiếm điều gì đó mới mẻ để mang lại hy vọng cho bạn? đây là kế hoạch hoang tưởng của tôi, nhưng "này, nó cũng có lý mà" để xây dựng siêu trí tuệ trong phòng thí nghiệm nghiên cứu độc lập nhỏ của tôi (lưu ý: tôi sẽ đánh đổi độ chính xác để lấy tính giáo dục) đầu tiên, một chút bối cảnh: Tôi là một chàng trai 33 tuổi đã dành 22 năm qua để lập trình. trong suốt thời gian đó, tôi đã đặt ra nhiều câu hỏi về bản chất của máy tính, và tích lũy được một số... hiểu biết khá... kỳ lạ. vài năm trước, tôi đã xây dựng HVM, một hệ thống có khả năng chạy các chương trình trong một ngôn ngữ kỳ quặc gọi là "Haskell" trên GPU - đúng vậy, cùng một chip đã làm cho học sâu hoạt động, và khơi dậy toàn bộ chu kỳ AI này. nhưng Haskell liên quan gì đến AI? chà, đó là một câu chuyện dài. như các bậc cao niên có thể nhớ, vào thời điểm đó, cái mà chúng ta gọi là "AI" đã... khác. gần 3 thập kỷ trước, lần đầu tiên trong lịch sử, một máy tính đã đánh bại nhà vô địch thế giới trong cờ vua, khơi dậy nhiều cuộc tranh luận về AGI và singularity - giống như ngày nay! hệ thống, được gọi là Deep Blue, rất khác so với các mô hình mà chúng ta có ngày nay. nó không sử dụng transformers. nó không sử dụng mạng nơ-ron chút nào. thực tế, không có "mô hình" nào cả. nó là một "AI biểu tượng" thuần túy, có nghĩa là nó chỉ là một thuật toán cũ kỹ, quét hàng tỷ nước đi có thể, nhanh hơn và sâu hơn bất kỳ con người nào, đánh bại chúng ta bằng sức mạnh thuần túy. điều này đã khơi dậy một làn sóng nghiên cứu AI biểu tượng đầy hứa hẹn. các thuật toán tiến hóa, đồ thị tri thức, chứng minh định lý tự động, các bộ giải SAT/SMT, các bộ giải ràng buộc, hệ thống chuyên gia, và nhiều hơn nữa. thật đáng buồn, theo thời gian, phương pháp này đã gặp phải một bức tường. các quy tắc được xây dựng bằng tay không thể mở rộng, các hệ thống biểu tượng không thể *học* một cách động, và bong bóng đã vỡ. một mùa đông AI mới bắt đầu. phải mất nhiều năm sau đó, một sự kết hợp ngẫu nhiên của các yếu tố đã thay đổi mọi thứ. các nhà nghiên cứu đã bụi bặm một ý tưởng cũ - mạng nơ-ron - nhưng lần này, họ có một điều gì đó mới: GPU. những chip đồ họa này, ban đầu được xây dựng để xử lý video game, hóa ra lại hoàn hảo cho các phép nhân ma trận khổng lồ mà mạng nơ-ron yêu cầu. đột nhiên, những gì mất hàng tuần có thể được thực hiện trong vài giờ. học sâu bùng nổ, và đây là chúng ta ngày hôm nay, với các transformers đang chiếm lĩnh thế giới. nhưng đây là điều: chúng ta chỉ chuyển *một* nhánh của AI sang GPU - nhánh kết nối, số học. phía biểu tượng? nó vẫn mắc kẹt trong thời kỳ đồ đá của CPU. Haskell là một ngôn ngữ đặc biệt, vì nó thống nhất ngôn ngữ của các chứng minh (tức là, cách mà các nhà toán học sử dụng để diễn đạt các định lý) với ngôn ngữ lập trình (tức là, những gì các lập trình viên sử dụng để xây dựng ứng dụng). điều này làm cho nó đặc biệt phù hợp cho lý luận biểu tượng - loại tính toán chính xác mà deep blue đã sử dụng, nhưng bây giờ chúng ta có thể chạy nó một cách song song trên phần cứng hiện đại. (để chính xác hơn, chỉ có song song GPU khổng lồ không phải là điều duy nhất mà HVM mang lại. hóa ra nó cũng dẫn đến *tăng tốc độ tiệm cận* trong một số trường hợp. và đây là một lý do chính để tin vào phương pháp của chúng tôi: các phương pháp biểu tượng trước đây không chỉ thiếu tài nguyên tính toán. chúng chậm một cách theo cấp số nhân, theo nghĩa thuật toán. không có gì ngạc nhiên khi chúng không hoạt động. chúng không có cơ hội.) luận điểm của tôi rất đơn giản: bây giờ tôi có thể chạy Haskell trên GPU, và với sự tăng tốc tiệm cận này, tôi đang ở vị trí để hồi sinh những phương pháp AI biểu tượng cũ này, mở rộng chúng lên nhiều bậc, và xem điều gì sẽ xảy ra. có thể, chỉ có thể, một trong số chúng sẽ làm chúng ta ngạc nhiên. cột mốc đầu tiên của chúng tôi đã bắt đầu: chúng tôi đã xây dựng chương trình/synthesizer chứng minh nhanh nhất thế giới, mà tôi gọi là SupGen. hoặc NeoGen. hoặc QuickGen? chúng tôi sẽ phát hành nó như một bản cập nhật cho ngôn ngữ "Bend" của chúng tôi, làm cho nó có sẵn công khai vào khoảng cuối tháng Mười. sau đó, vào cuối năm nay, chúng tôi sẽ sử dụng nó làm nền tảng cho một chương trình nghiên cứu mới, tìm kiếm một kiến trúc biểu tượng thuần túy có thể thực sự học từ dữ liệu và xây dựng các tổng quát - không thông qua gradient descent và backpropagation, mà thông qua lý luận logic và tổng hợp chương trình. các thí nghiệm đầu tiên của chúng tôi sẽ rất đơn giản (không khác gì GPT-2), và cột mốc chính sẽ là có một "công cụ hoàn thành token tiếp theo" hoàn toàn không phụ thuộc vào mạng nơ-ron. nếu điều này hoạt động, nó có thể là một bước nhảy vọt mang tính cách mạng vượt ra ngoài transformers và học sâu, vì đây là một phương pháp hoàn toàn mới có khả năng loại bỏ nhiều hạn chế thừa hưởng từ GPT mà các AI hiện nay gặp phải. không chỉ là các vấn đề về tokenizer (như chữ R trong dâu tây), mà còn là các vấn đề cơ bản ngăn cản các GPT học hiệu quả và tổng quát hoang tưởng? có thể đáng để thử? chắc chắn (bây giờ hãy đoán xem có bao nhiêu phần là do AI tạo ra, và mô hình nào tôi đã sử dụng)
25,95K