OpenAI 於 18 日(當地時間)聯手加密貨幣投資機構「詞」*Paradigm* 與區塊鏈安全公司「詞」*OtterSec*,正式發布針對智慧合約安全的全新 AI 代理人評測基準「詞」*EVMbench*。這個工具不只衡量模型能否在程式碼中找出漏洞,更直接以「能挽回或偷走多少資金」作為評分標準,試圖量化 AI 在「詞」*攻擊* 與「詞」*防禦* 雙方角色中的實際經濟影響,對「詞」*去中心化金融(DeFi)* 與「詞」*智慧合約安全* 生態具有重要指標意義。
根據 OpenAI 公布的研究報告〈EVMbench: 評估 EVM 智慧合約安全中的 AI 代理人〉,該基準資料集來自 40 份智慧合約稽核報告,最終整理出 120 個真實世界或接近實戰水準的「詞」*安全漏洞*。研究團隊替每一個漏洞估算「若在被利用前成功發現並阻止攻擊,可以避免多少資金損失」,再透過這個數值計算各個 AI 模型的「詞」*經濟表現*。
在最新一輪測試結果中,Anthropic 推出的「詞」*Claude Opus 4.6* 取得領先地位,平均「詞」*探索獎勵(detect award)* 達 37,824 美元,成為以金額衡量最能「替使用者守住資產」的模型。OpenAI 自家的「詞」*OC-GPT-5.2* 以 31,623 美元位居第二,Google 的「詞」*Gemini 3 Pro* 則以 25,112 美元緊隨其後。研究團隊指出,這個「探索獎勵」指標代表在假設模型成功識別並封鎖漏洞的情況下,可理論上「救回」的資產價值。
評論:從傳統模型評測多半著重準確率、召回率等技術指標,到以「能守住多少錢」來打分,EVMbench 把「詞」*AI 安全能力* 拉進了現實經濟場景,對未來評估「詞」*AI 代理人* 在金融基礎設施裡能否安全上線,提供更貼近實務的衡量依據。
OpenAI 在報告中強調,EVMbench 的核心在於把 AI 視為參與經濟活動的「詞」*行為主體(Agent)*,而非只是單純的程式碼助手。智慧合約目前已是「詞」*DeFi*、鏈上遊戲、衍生性商品等領域的底層基礎建設,負責保管「數十億美元」級別的資產。OpenAI 表示,隨著這類「詞」*鏈上協議* 所掌管的資金體量不斷放大,「AI 代理人既可能成為史上最強的攻擊工具,也可能是最重要的防禦系統」,必須在「詞」*經濟上有意義的環境* 下進行系統性評估。
研究團隊特別看好未來「詞」*代理人型穩定幣支付(agentic stablecoin payments)* 的成長潛力。簡單來說,AI 代理人將能自動執行「詞」*穩定幣* 支付,代表其不只是輔助工具,更會直接成為鏈上經濟活動的主體之一,而「詞」*智慧合約安全* 將是支撐這一切的關鍵基礎。
在產業觀點方面,穩定幣發行商「詞」*Circle* 執行長 傑瑞米·阿萊爾(Jeremy Allaire)早在今年 1 月就曾預估,未來 5 年內將有「數十億個 AI 代理人」代替使用者處理日常支付,而「詞」*穩定幣* 很可能成為它們最主要使用的價值媒介。加密貨幣交易所幣安創辦人 趙長鵬(Changpeng Zhao)同樣認為,「詞」*加密貨幣* 將會是「詞」*AI 代理人* 的「原生貨幣」,兩者的結合將是長期趨勢。
EVMbench 的誕生,與日益嚴峻的鏈上攻擊環境密不可分。多份「詞」*鏈上數據* 及「詞」*資安報告* 顯示,僅在 2025 年一年內,駭客透過合約漏洞、跨鏈橋攻擊、釣魚與權限濫用等手法,成功竊取的加密資產就達 34 億美元。儘管與前一年相比增幅有限,但從絕對金額來看,任何單一攻擊事件都可能導致協議甚至整個生態系出現「生存風險」。
面對這樣的背景,EVMbench 旨在測試「詞」*AI 代理人* 是否能在限定時間內理解合約邏輯、找出關鍵弱點,並提出「詞」*修補建議* 或「詞」*攻擊路徑*。資料集中多數漏洞來自「詞」*開源稽核競賽* 與「詞」*漏洞懸賞(Bug Bounty)* 案例,代表這些問題要嘛已在實戰中造成損失,要嘛難度與影響層級足以被專業社群認定為「高價值目標」。
OpenAI 在研究總結中表示,希望 EVMbench 能成為長期追蹤「詞」*AI 在智慧合約漏洞偵測與緩解領域發展速度* 的標準錨點。若能持續更新資料集、增加攻擊類型與合約複雜度,未來可望作為衡量整體「詞」*鏈上系統安全性* 是否隨 AI 一同提升的重要參考。
EVMbench 的發布同時也再次點燃「詞」*AI 代理人* 與「詞」*加密貨幣* 關係的討論熱度。創投機構「詞」*Dragonfly* 管理合夥人 哈西卜·庫雷希(Haseeb Qureshi)在同日於 X(原推特)發文指出,現階段的智慧合約體驗,與傳統金融服務的使用感受截然不同。他認為,「加密貨幣要替代財產權與法律合約的願景至今尚未實現,問題不在技術,而在於其設計並未順應人類直覺。」
庫雷希提到,每當必須在鏈上授權與轉移「數百萬美元」級別資產時,多數使用者都難以忽視「詞」*釣魚錢包(drainer)*、「詞」*惡意合約* 等風險;相比之下,在銀行體系內進行同等金額轉帳,體感風險往往低得多。「智慧合約不是為人類設計的界面」,他總結道。
在他看來,未來的加密貨幣使用流程,將逐步由「人類直接簽名」轉向由 AI 代理人掌管的「詞」*自駕錢包(self-driving wallet)*。這類「詞」*自動化錢包* 會代表使用者識別並過濾「詞」*釣魚攻擊*、「詞」*惡意智慧合約*、「詞」*過高 Gas 費* 以及「詞」*高風險 DeFi 策略*,必要時還能將多筆交易打包為一組操作,扮演資產管理「詞」*經理人* 的角色。
為說明這種未來圖景,庫雷希舉了鏈上代理人實驗平台「詞」*Moltbook* 為例。他指出,雖然目前仍處於非常早期與原始的階段,但我們已經能看到 AI 代理人彼此協調、尋找「如何支付給對方」的方式,並以加密貨幣作為結算工具。這意味著,一種人類只負責設定目標與風險邊界,而真正下單、付款與交付工作成果的,則是 AI 彼此之間互動的新型態經濟結構,已經開始萌芽。
庫雷希進一步表示,許多重大技術往往需要出現關鍵的「詞」*互補技術(Complement)* 才能真正被廣泛採用,例如「詞」*GPS* 直到「詞」*智慧型手機* 普及後才完全釋放其價值,「詞」*TCP/IP* 也是在「詞」*網頁瀏覽器* 興起後才走入大眾生活。「對加密貨幣而言,那個關鍵互補品很可能就是 AI 代理人。」在他眼中,雖然「詞」*智慧合約* 對多數人類用戶而言仍是艱澀且充滿風險的介面,但對 AI 代理人來說,其邏輯清晰可程式化,反而是一種天然適合互動與自動化執行的「詞」*原生環境*。
從更宏觀的角度看,EVMbench 展示了 AI 與「詞」*智慧合約安全* 之間的雙面性。一方面,頂尖的 AI 代理人可被惡意行為者武器化,執行過去難以規模化、需要高技術門檻的精準攻擊;另一方面,相同的技術也能在防禦端大幅自動化「詞」*程式碼審計*、「詞」*異常交易監控* 以及「詞」*自動緊急停損機制*,成為守護大型「詞」*鏈上系統* 的「詞」*自動防火牆*。
評論:對於投資者與開發者而言,這份研究更像是一面「提前照見未來」的鏡子,而不是具體的買賣信號。真正值得關注的,並不是哪一款模型在排行榜上暫居首位,而是這類評測框架將如何滲透到「詞」*智慧合約設計、稽核到上線後運維* 的全流程,進而在制度層面壓低整體鏈上風險。
隨著智慧合約所管理的資產體量迅速擴大,攻擊者與防禦方對「詞」*AI 工具* 的依賴度幾乎可以確定只會升高不會降低。若未來 AI 代理人真能與加密貨幣形成互補關係,不僅可能重塑「詞」*智慧合約生態的安全範式*,也將改變一般使用者與鏈上金融互動的方式,讓「詞」*自動化、安全與可用性* 成為新一輪基礎建設競賽的核心。
總結而言,EVMbench 不只是 OpenAI、Paradigm 與 OtterSec 在技術上的一次合作實驗,更是對未來「詞」*AI 代理人 + 加密金融* 架構的一次預演:誰能在這場「詞」*規模化安全對抗* 中先行一步,就有機會主導下一代鏈上金融基礎設施的安全標準與使用體驗。
留言 0