萬衆矚目的 GPT-5 終於來了。 不過路透社採訪的兩位新模型測試者卻說,儘管 GPT-5 的編程能力和解決科學和數學問題的能力很強,但他們認為從 GPT-4 到 GPT-5 的飛躍不如從 GPT-3 到 GPT-4 那麼大。 瓶頸原因不難理解——數據不夠。 有個非常不嚴謹但是非常形象的說法是,當時 GPT-4 訓練時已經把能從互聯網上抓取的數據基本都抓取盡了,有種類似於閱盡世界繁華的感覺。 所以,曾經 OpenAI 首席科學家Ilya Sutskever 去年才會說,雖然計算能力在增長,但數據量並未同步增加。 其實坦率來講,一個通才型的 AI 很長一段時間內的巔峰大概也就是 GPT-5 了,而接下來各類 AI 公司卷的一定是專家型的 AI。 比如說這個採訪裡 OpenLedger 的 AI 專家 Ram Kumar 提到的,很多甲方(例如 Trust Wallet),想把 AI 融進錢包,但他們不能直接用通用模型——滿足不了特定需求,必須按場景定製,OL 提供的就是讓大家能這麼做的協議與工具。 再比如說,當年彭博社第一時間就開始研發 BloombergGPT,基於彭博龐大的專有終端、新聞、企業數據和文本(總計超過 7000 億個標記)進行訓練。正是因為這個封閉語料庫,它在金融任務上一定會大幅優於通用LLMs。 再比如馬斯克的特斯拉(FSD)自動駕駛,基於特斯拉獨自收集的數十億英里的車隊視頻/遙測數據進行訓練,這是特斯拉競爭對手沒有的。所以前幾天,馬斯克暗示,如果他也可以拿中國本地的駕駛相關的數據,在之前懂車帝的競賽裡,特斯拉可以完全通關。 所以說,未來的 AI 白熱化競爭一定是在專家數據賽道裡,光靠白嫖海量互聯網普通數據肯定不夠了。所以像 OpenLedger 研發的數據歸屬權(Data Attribution)系統會成為新的基建。 想象一下吧,珍貴數據之所以珍貴,不僅僅是因為它稀缺,更是因為它能給數據的持有者帶來回報(如果你把數據視作為一種資產的話),就像房子會產生房租,數據也應該產生數據租。 Ram 在視頻裡說,Hugging Face 很偉大,但上面 90% 的數據集對商業落地來說沒那麼有用。 因此,想要可以商用的專家 AI,必須先有數據歸屬權系統,讓珍貴數據的持有者把它的珍貴數據拿出來,並且讓他獲得回報嚐到甜頭,進而鼓勵更多的珍貴數據持有者拿出來,形成正循環。 AI 帶來的平權可能就隱藏在此,過去專家的資源是寶貴的,是特權階級特有的,畢竟是專家的時間有限。而 AI 時代,如果是專家 AI 呢?它極大降低了邊際成本,讓普通人使用專家級或者準專家級的服務成為可能。 期待 OL 主網上線。
Openledger
Openledger8月5日 14:11
@TrustWallet 現在是 @OpenLedgerHQ 的客戶,正式使用我們的技術進行建設。 自豪地支持 Web3 最受信任的錢包之一,因為它擁抱可驗證的 AI。 聽 @Ramkumartweet 和 @EowynChen 在 @therollupco 上詳細解釋。
5.06K