熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Tomasz Tunguz
GPT-5 在 AIME 2025 上達到了 94.6% 的準確率,表明其數學推理接近人類水平。
然而,當要求它查詢你的資料庫時,成功率驟降至十幾%。
Spider 2.0 基準測試揭示了 AI 能力之間的巨大差距。Spider 2.0 是一個全面的文本到 SQL 基準,測試 AI 模型從自然語言問題生成準確 SQL 查詢的能力,涵蓋真實世界的資料庫。
雖然大型語言模型在數學、編碼和推理的知識工作中取得了成功,但文本到 SQL 仍然頑固地困難。
三個 Spider 2.0 基準測試在不同環境中測試真實世界的資料庫查詢。Spider 2.0-Snow 使用 Snowflake 資料庫,包含 547 個測試示例,準確率最高達到 59.05%。
Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite,另有 547 個示例,僅達到 37.84%。Spider 2.0-DBT 針對 DuckDB 測試代碼生成,包含 68 個示例,最高達到 39.71%。
這種性能差距並不是因為缺乏嘗試。自 2024 年 11 月以來,來自 12 個模型家族的 56 次提交在這些基準測試中競爭。
Claude、OpenAI、DeepSeek 等都在這些測試中推動了他們的模型。過去九個月的進展穩步上升,從大約 2% 提升到約 60%。
當你考慮到 SQL 的限制時,問題變得更加複雜。與擁有 600,000 個單詞的英語相比,SQL 的詞彙量有限,而編程語言則有更廣泛的語法和庫可供了解。此外,還有大量的 SQL 數據可供訓練。
如果說有什麼不同,這應該比模型現在擅長的開放式推理任務更容易。
然而,即使完美的 SQL 生成也無法解決真正的商業挑戰。每家公司對「收入」的定義都不同。
市場營銷通過活動支出來衡量客戶獲取成本,銷售通過客戶經理成本來計算,而財務則包括全額員工費用。這些語義差異造成的混淆是技術準確性無法解決的。
Spider 2.0 的結果指向了數據工作的基本真理。SQL 語法的技術熟練程度只是入門。
真正的挑戰在於商業背景。理解數據的含義、不同團隊如何定義指標以及何時邊緣案例重要。正如我在《語義耕耘者》中所寫,從原始數據到商業意義的橋梁需要人類的判斷,而當前的 AI 無法複製。

8.79K
GPT-5 在 AIME 2025 上達到了 94.6% 的準確率,表明其數學推理接近人類水平。
然而,當要求它查詢你的資料庫時,成功率驟降至十幾%。
Spider 2.0 基準測試揭示了 AI 能力之間的巨大差距。Spider 2.0 是一個全面的文本到 SQL 基準,測試 AI 模型從自然語言問題生成準確 SQL 查詢的能力,涵蓋真實世界的資料庫。
雖然大型語言模型在數學、編碼和推理的知識工作中取得了成功,但文本到 SQL 仍然頑固地困難。
三個 Spider 2.0 基準測試在不同環境中測試真實世界的資料庫查詢。Spider 2.0-Snow 使用 Snowflake 資料庫,包含 547 個測試示例,準確率最高達到 59.05%。
Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite,另有 547 個示例,準確率僅為 37.84%。Spider 2.0-DBT 針對 DuckDB 測試代碼生成,包含 68 個示例,最高達到 39.71%。
這種性能差距並不是因為缺乏嘗試。自 2024 年 11 月以來,來自 12 個模型家族的 56 次提交在這些基準測試中競爭。
Claude、OpenAI、DeepSeek 等都在這些測試中推動了他們的模型。過去九個月的進展穩步上升,從大約 2% 提升到約 60%。
當你考慮到 SQL 的限制時,問題變得更加複雜。與擁有 600,000 個單詞的英語相比,SQL 的詞彙量有限,而編程語言的語法和庫要廣泛得多。此外,還有大量的 SQL 數據可供訓練。
如果說有什麼不同,這應該比模型現在擅長的開放式推理任務更容易。
然而,即使完美的 SQL 生成也無法解決真正的商業挑戰。每家公司對「收入」的定義都不同。
市場營銷通過活動支出來衡量客戶獲取成本,銷售通過客戶經理成本來計算,而財務則包括全額員工費用。這些語義差異造成的混淆是技術準確性無法解決的。
Spider 2.0 的結果指向了數據工作的基本真理。SQL 語法的技術熟練程度只是入門。
真正的挑戰在於商業背景。理解數據的含義、不同團隊如何定義指標以及何時邊緣案例重要。正如我在《語義耕耘者》中所寫,從原始數據到商業意義的橋梁需要人類的判斷,而當前的 AI 無法複製。

3.94K
Perplexity AI剛剛以345億美元的未請求報價收購谷歌的Chrome瀏覽器,試圖利用即將到來的反壟斷裁決,該裁決可能迫使谷歌剝離其瀏覽器業務。
將Chrome的經濟狀況與谷歌現有的Safari協議進行比較,揭示了為什麼345億美元低估了該瀏覽器。
谷歌每年向蘋果支付180億到200億美元,以保持Safari的默認搜索引擎¹,服務大約8.5億用戶²。這相當於每個用戶每年21美元。
Perplexity的報價將Chrome的估值定為320億美元,這對於其35億用戶³來說,相當於每個用戶每年9美元。
如果Chrome用戶享有與谷歌/蘋果Safari協議相同的條款,該瀏覽器的年收入潛力將超過730億美元。
這些數據基於公開估計,但只是個近似值。
這假設谷歌會向Chrome的新所有者支付類似的規模費用以獲得默認搜索位置。考慮到5到6倍的市值與收入倍數,Chrome的價值在1720億到6300億美元之間,遠遠高於345億美元的報價。
Chrome在市場上佔據65%的份額⁴,而Safari僅佔18%。剝離將使搜索廣告市場陷入動蕩。保持廣告預算的價值對於谷歌的市值和廣告生態系統中的地位來說是難以誇大的。
如果被迫出售Chrome,谷歌將面臨生死攸關的選擇。無論付出多少代價保持默認搜索引擎,還是看著競爭對手將其最有價值的分發渠道變成對抗自己的武器。
這值多少錢?相對於簡單的收入倍數來說,顯然是一個顯著的溢價。
¹ 彭博社:谷歌對蘋果的支付在2022年達到了200億美元(
² ZipDo:2024年蘋果Safari的基本統計數據(
³ Backlinko:2025年網絡瀏覽器市場份額(
⁴ Statcounter:全球瀏覽器市場份額(

7.96K
在1999年,網路公司根據流量進行估值。首次公開募股的指標圍繞著瀏覽量。
然後谷歌推出了AdWords,一種基於點擊的廣告模式,並在2024年建立了一個2730億美元的業務。
但這一切可能即將改變:皮尤研究中心2025年7月的研究顯示,使用AI摘要的搜索結果中,使用者僅點擊8%,而沒有AI摘要的則為15%——減少了47%。只有1%的使用者會從AI摘要中點擊進去。
Cloudflare的數據顯示,AI平台爬取內容的頻率遠高於它們回流的流量:Anthropic每獲得1次推薦,就爬取32,400個頁面,而傳統搜索引擎每位訪客發送的內容僅掃描幾次。
如果內容主要是文本,為AI爬蟲提供內容的成本可能不會很高。
更重要的是,AI系統使使用者與出版者之間的關係變得不再直接。使用者更喜歡聚合的AI答案,而不是點擊網站尋找答案。
大多數網站應該合理預期流量會減少。你的網站和業務將如何應對?
來源:
- 皮尤研究中心 - Athena Chapekis,2025年7月22日 (
- Cloudflare:推薦流量的崩潰前的爬取 (
- Cloudflare雷達:AI洞察 - 爬取與推薦比率 (
- 播客:AI時代內容價值的轉變 (

9.68K
GPT-5 昨天推出。AIME 2025 的得分為 94.6%。SWE-bench 的得分為 74.9%。
隨著我們接近這些基準的上限,它們將消亡。
使 GPT-5 和下一代模型革命性的不是它們的知識,而是知道如何行動。對於 GPT-5,這在兩個層面上發生。首先,決定使用哪個模型。但第二,更重要的是,通過工具調用。
我們生活在一個 LLMs 精通知識檢索和重組的時代。消費者搜索和編碼,最初的殺手級應用,根本上是知識檢索挑戰。兩者以新的方式組織現有信息。
我們已經攀登了這些山丘,因此競爭比以往任何時候都更加激烈。Anthropic、OpenAI 和 Google 的模型正在朝著相似的能力趨近。中國模型和開源替代品正在不斷推進,越來越接近最先進的技術。每個人都可以檢索信息。每個人都可以生成文本。
新的競爭軸心?工具調用。
工具調用將 LLMs 從顧問轉變為行動者。它彌補了純語言模型無法克服的兩個關鍵模型弱點。
首先,工作流程編排。模型在單次回應方面表現出色,但在多步驟、有狀態的過程中卻掙扎。工具使它們能夠管理長工作流程,跟踪進度,處理錯誤,保持上下文,跨越數十個操作。
其次,系統集成。LLMs 生活在一個僅限文本的世界中。工具讓它們能夠與外部系統(如數據庫、API 和企業軟件)進行可預測的接口,將自然語言轉化為可執行的行動。
在過去的一個月中,我建立了 58 種不同的 AI 工具。
電子郵件處理器。CRM 整合器。Notion 更新器。研究助手。每個工具都將模型的能力擴展到一個新的領域。
AI 最重要的能力是快速且正確地選擇合適的工具。每一步錯誤的路由都會殺死整個工作流程。
當我說「閱讀這封來自 Y Combinator 的電子郵件並找到所有不在 CRM 中的初創公司」時,現代 LLMs 執行一個複雜的序列。
一個英語命令取代了整個工作流程。而這只是一個簡單的例子。
更好的是,模型在正確的工具設置下,可以驗證自己的工作,確保任務按時完成。這個自我驗證循環在工作流程中創造了可靠性,這在其他情況下很難實現。
將這一點乘以數百名員工。數千個工作流程。生產力的增長呈指數級增長。
未來 AI 世界的贏家將是那些在編排工具和路由正確查詢方面最為精明的人。每一次。當這些工作流程變得可預測時,我們都將成為代理經理。

3.16K
2025年是代理人的年代,而代理人的關鍵能力是調用工具。
使用Claude Code時,我可以告訴AI篩選一份新聞通訊,找到所有初創公司的鏈接,並驗證它們在我們的CRM中存在,只需一個命令。這可能涉及調用兩到三個不同的工具。
但問題在於:使用大型基礎模型來做這件事是昂貴的,通常受到速率限制,並且對於選擇任務來說過於強大。
建立一個具有工具調用的代理系統的最佳方法是什麼?
答案在於小型行動模型。NVIDIA發表了一篇引人注目的論文,主張「小型語言模型(SLMs)足夠強大,天生更適合,並且在代理系統中的許多調用中必然更具經濟性。」
我一直在測試不同的本地模型,以驗證成本降低的實驗。我從一個Qwen3:30b參數模型開始,這個模型有效,但因為它是一個如此大的模型,所以可能會相當慢,儘管在任何時候只有30億個參數中的3億個是活躍的。
NVIDIA的論文推薦Salesforce xLAM模型——一種不同的架構,稱為大型行動模型,專門設計用於工具選擇。
因此,我進行了自己的測試,每個模型調用一個工具來列出我的Asana任務。
結果令人驚訝:xLAM在2.61秒內完成任務,成功率為100%,而Qwen則花了9.82秒,成功率為92%——幾乎是四倍的時間。
這個實驗顯示了速度的提升,但有一個權衡:模型中應該有多少智能,與工具本身相比。這是有限的。
對於像Qwen這樣的大型模型,工具可以更簡單,因為模型具有更好的錯誤容忍度,並且可以繞過設計不良的界面。模型通過強力推理來彌補工具的限制。
對於較小的模型,模型恢復錯誤的能力較弱,因此工具必須更穩健,選擇邏輯必須更精確。這看起來可能是一種限制,但實際上是一種特性。
這一約束消除了LLM鏈式工具的累積錯誤率。當大型模型進行連續的工具調用時,錯誤會指數級地累積。
小型行動模型迫使更好的系統設計,保留LLM的優勢並將其與專門模型結合。
這種架構更高效、更快且更可預測。


5.29K
這太有趣了,馬里奧。感謝您邀請我參加節目,談論市場上發生的一切!

Mario Gabriele 🦊2025年7月22日
Our latest episode with Tomasz Tunguz is live!
The Decade of Data
@ttunguz has spent almost two decades turning data into investment insights. After backing Looker, Expensify, and Monte Carlo at Redpoint Ventures, he launched @Theoryvc in 2022 with a bold vision: build an "investing corporation" where researchers, engineers, and operators sit alongside investors, creating real-time market maps and in-house AI tooling. His debut fund closed at $238 million, followed just 19 months later by a $450 million second fund. Centered on data, AI, and crypto infrastructure, Theory operates at the heart of today's most consequential technological shifts. We explore how data is reshaping venture capital, why traditional investment models are being disrupted, and what it takes to build a firm that doesn't just predict the future but actively helps create it.
Listen now:
• YouTube:
• Spotify:
• Apple:
A big thank you to the incredible sponsors that make the podcast possible:
✨ Brex — The banking solution for startups:
✨ Generalist+ — Essential intelligence for modern investors and technologists:
We explore:
→ How Theory’s “investing corporation” model works
→ Why crypto exchanges could create a viable path to public markets for small-cap software companies
→ The looming power crunch—why data centers could consume 15% of U.S. electricity within five years
→ Stablecoins’ rapid ascent as major banks route 5‑10% of U.S. dollars through them
→ Why Ethereum faces an existential challenge similar to AWS losing ground to Azure in the AI era
→ Why Tomasz believes today’s handful of agents will become 100+ digital co‑workers by year‑end
→ Why Meta is betting billions on AR glasses to change how we interact with machines
→ How Theory Ventures uses AI to accelerate market research, deal analysis, and investment decisions
…And much more!
8K
OpenAI 每天平均接收每位美國人 1 條查詢。
Google 每天平均接收每位美國人約 4 條查詢。
自那時起,50% 的 Google 搜索查詢都有 AI 概述,這意味著至少 60% 的美國搜索現在是 AI 驅動的。
這發生的時間比我預期的要長一些。在 2024 年,我預測 50% 的消費者搜索將是 AI 驅動的。(
但 AI 已經在搜索中出現。
如果 Google 搜索模式有任何指示,搜索行為中存在一種冪律。SparkToro 對 Google 搜索行為的分析顯示,搜索的美國人中,前 1/3 的人執行了超過 80% 的所有搜索——這意味著 AI 的使用不太可能均勻分佈——就像未來一樣。
網站和企業開始感受到這一影響。《經濟學人》的文章 "AI 正在摧毀網絡。還有什麼能拯救它嗎?" 用一個標題捕捉了這種時代精神。(
現在大多數美國人都在使用 AI 進行搜索。隨著搜索模式的變化,第二階段的影響將在今年下半年出現,更多人將會問,"我的流量怎麼了?" (
AI 是一個新的分發渠道,那些抓住它的人將獲得市場份額。
- 威廉·吉布森看得更遠!
- 這是基於 SparkToro 圖表的中點分析,是一個非常簡單的分析,並因此有一些誤差。

8.87K
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可