OpenAI 推出 EVMbench：AI 代理人評比分高低　比拚能為 DeFi 守住多少資金

Thu, 19 Feb 2026, 14:49 pm UTC

OpenAI 推出 EVMbench：AI 代理人評比分高低　比拚能為 DeFi 守住多少資金 / Tokenpost

OpenAI 於 18 日（當地時間）聯手加密貨幣投資機構「詞」*Paradigm* 與區塊鏈安全公司「詞」*OtterSec*，正式發布針對智慧合約安全的全新 AI 代理人評測基準「詞」*EVMbench*。這個工具不只衡量模型能否在程式碼中找出漏洞，更直接以「能挽回或偷走多少資金」作為評分標準，試圖量化 AI 在「詞」*攻擊* 與「詞」*防禦* 雙方角色中的實際經濟影響，對「詞」*去中心化金融(DeFi)* 與「詞」*智慧合約安全* 生態具有重要指標意義。

根據 OpenAI 公布的研究報告〈EVMbench: 評估 EVM 智慧合約安全中的 AI 代理人〉，該基準資料集來自 40 份智慧合約稽核報告，最終整理出 120 個真實世界或接近實戰水準的「詞」*安全漏洞*。研究團隊替每一個漏洞估算「若在被利用前成功發現並阻止攻擊，可以避免多少資金損失」，再透過這個數值計算各個 AI 模型的「詞」*經濟表現*。

在最新一輪測試結果中，Anthropic 推出的「詞」*Claude Opus 4.6* 取得領先地位，平均「詞」*探索獎勵(detect award)* 達 37,824 美元，成為以金額衡量最能「替使用者守住資產」的模型。OpenAI 自家的「詞」*OC-GPT-5.2* 以 31,623 美元位居第二，Google 的「詞」*Gemini 3 Pro* 則以 25,112 美元緊隨其後。研究團隊指出，這個「探索獎勵」指標代表在假設模型成功識別並封鎖漏洞的情況下，可理論上「救回」的資產價值。

評論：從傳統模型評測多半著重準確率、召回率等技術指標，到以「能守住多少錢」來打分，EVMbench 把「詞」*AI 安全能力* 拉進了現實經濟場景，對未來評估「詞」*AI 代理人* 在金融基礎設施裡能否安全上線，提供更貼近實務的衡量依據。

OpenAI 在報告中強調，EVMbench 的核心在於把 AI 視為參與經濟活動的「詞」*行為主體(Agent)*，而非只是單純的程式碼助手。智慧合約目前已是「詞」*DeFi*、鏈上遊戲、衍生性商品等領域的底層基礎建設，負責保管「數十億美元」級別的資產。OpenAI 表示，隨著這類「詞」*鏈上協議* 所掌管的資金體量不斷放大，「AI 代理人既可能成為史上最強的攻擊工具，也可能是最重要的防禦系統」，必須在「詞」*經濟上有意義的環境* 下進行系統性評估。

研究團隊特別看好未來「詞」*代理人型穩定幣支付(agentic stablecoin payments)* 的成長潛力。簡單來說，AI 代理人將能自動執行「詞」*穩定幣* 支付，代表其不只是輔助工具，更會直接成為鏈上經濟活動的主體之一，而「詞」*智慧合約安全* 將是支撐這一切的關鍵基礎。

在產業觀點方面，穩定幣發行商「詞」*Circle* 執行長傑瑞米·阿萊爾（Jeremy Allaire）早在今年 1 月就曾預估，未來 5 年內將有「數十億個 AI 代理人」代替使用者處理日常支付，而「詞」*穩定幣* 很可能成為它們最主要使用的價值媒介。加密貨幣交易所幣安創辦人趙長鵬（Changpeng Zhao）同樣認為，「詞」*加密貨幣* 將會是「詞」*AI 代理人* 的「原生貨幣」，兩者的結合將是長期趨勢。

EVMbench 的誕生，與日益嚴峻的鏈上攻擊環境密不可分。多份「詞」*鏈上數據* 及「詞」*資安報告* 顯示，僅在 2025 年一年內，駭客透過合約漏洞、跨鏈橋攻擊、釣魚與權限濫用等手法，成功竊取的加密資產就達 34 億美元。儘管與前一年相比增幅有限，但從絕對金額來看，任何單一攻擊事件都可能導致協議甚至整個生態系出現「生存風險」。

面對這樣的背景，EVMbench 旨在測試「詞」*AI 代理人* 是否能在限定時間內理解合約邏輯、找出關鍵弱點，並提出「詞」*修補建議* 或「詞」*攻擊路徑*。資料集中多數漏洞來自「詞」*開源稽核競賽* 與「詞」*漏洞懸賞(Bug Bounty)* 案例，代表這些問題要嘛已在實戰中造成損失，要嘛難度與影響層級足以被專業社群認定為「高價值目標」。

OpenAI 在研究總結中表示，希望 EVMbench 能成為長期追蹤「詞」*AI 在智慧合約漏洞偵測與緩解領域發展速度* 的標準錨點。若能持續更新資料集、增加攻擊類型與合約複雜度，未來可望作為衡量整體「詞」*鏈上系統安全性* 是否隨 AI 一同提升的重要參考。

EVMbench 的發布同時也再次點燃「詞」*AI 代理人* 與「詞」*加密貨幣* 關係的討論熱度。創投機構「詞」*Dragonfly* 管理合夥人哈西卜·庫雷希（Haseeb Qureshi）在同日於 X（原推特）發文指出，現階段的智慧合約體驗，與傳統金融服務的使用感受截然不同。他認為，「加密貨幣要替代財產權與法律合約的願景至今尚未實現，問題不在技術，而在於其設計並未順應人類直覺。」

庫雷希提到，每當必須在鏈上授權與轉移「數百萬美元」級別資產時，多數使用者都難以忽視「詞」*釣魚錢包(drainer)*、「詞」*惡意合約* 等風險；相比之下，在銀行體系內進行同等金額轉帳，體感風險往往低得多。「智慧合約不是為人類設計的界面」，他總結道。

在他看來，未來的加密貨幣使用流程，將逐步由「人類直接簽名」轉向由 AI 代理人掌管的「詞」*自駕錢包(self-driving wallet)*。這類「詞」*自動化錢包* 會代表使用者識別並過濾「詞」*釣魚攻擊*、「詞」*惡意智慧合約*、「詞」*過高 Gas 費* 以及「詞」*高風險 DeFi 策略*，必要時還能將多筆交易打包為一組操作，扮演資產管理「詞」*經理人* 的角色。

為說明這種未來圖景，庫雷希舉了鏈上代理人實驗平台「詞」*Moltbook* 為例。他指出，雖然目前仍處於非常早期與原始的階段，但我們已經能看到 AI 代理人彼此協調、尋找「如何支付給對方」的方式，並以加密貨幣作為結算工具。這意味著，一種人類只負責設定目標與風險邊界，而真正下單、付款與交付工作成果的，則是 AI 彼此之間互動的新型態經濟結構，已經開始萌芽。

庫雷希進一步表示，許多重大技術往往需要出現關鍵的「詞」*互補技術(Complement)* 才能真正被廣泛採用，例如「詞」*GPS* 直到「詞」*智慧型手機* 普及後才完全釋放其價值，「詞」*TCP/IP* 也是在「詞」*網頁瀏覽器* 興起後才走入大眾生活。「對加密貨幣而言，那個關鍵互補品很可能就是 AI 代理人。」在他眼中，雖然「詞」*智慧合約* 對多數人類用戶而言仍是艱澀且充滿風險的介面，但對 AI 代理人來說，其邏輯清晰可程式化，反而是一種天然適合互動與自動化執行的「詞」*原生環境*。

從更宏觀的角度看，EVMbench 展示了 AI 與「詞」*智慧合約安全* 之間的雙面性。一方面，頂尖的 AI 代理人可被惡意行為者武器化，執行過去難以規模化、需要高技術門檻的精準攻擊；另一方面，相同的技術也能在防禦端大幅自動化「詞」*程式碼審計*、「詞」*異常交易監控* 以及「詞」*自動緊急停損機制*，成為守護大型「詞」*鏈上系統* 的「詞」*自動防火牆*。

評論：對於投資者與開發者而言，這份研究更像是一面「提前照見未來」的鏡子，而不是具體的買賣信號。真正值得關注的，並不是哪一款模型在排行榜上暫居首位，而是這類評測框架將如何滲透到「詞」*智慧合約設計、稽核到上線後運維* 的全流程，進而在制度層面壓低整體鏈上風險。

隨著智慧合約所管理的資產體量迅速擴大，攻擊者與防禦方對「詞」*AI 工具* 的依賴度幾乎可以確定只會升高不會降低。若未來 AI 代理人真能與加密貨幣形成互補關係，不僅可能重塑「詞」*智慧合約生態的安全範式*，也將改變一般使用者與鏈上金融互動的方式，讓「詞」*自動化、安全與可用性* 成為新一輪基礎建設競賽的核心。

總結而言，EVMbench 不只是 OpenAI、Paradigm 與 OtterSec 在技術上的一次合作實驗，更是對未來「詞」*AI 代理人 + 加密金融* 架構的一次預演：誰能在這場「詞」*規模化安全對抗* 中先行一步，就有機會主導下一代鏈上金融基礎設施的安全標準與使用體驗。

#OpenAI

OpenAI 推出 EVMbench：AI 代理人評比分高低 比拚能為 DeFi 守住多少資金

OpenAI 推出 EVMbench：AI 代理人評比分高低　比拚能為 DeFi 守住多少資金