根據《金融時報》(FT)於 24 日(當地時間)的報導,一項最新測試顯示,由「Meta」與「Google」等大型科技公司釋出的開源 *人工智慧(AI)* 模型,其內建的安全「*防護機制*」竟能在短短約 10 分鐘內,被公開的程式工具完全移除。這意味著,一旦模型被下載並重新發布,原本由開發公司設計的安全限制形同失效,誰應為 *AI 安全* 承擔責任的問題,正變得愈發棘手。
FT 與 *AI 安全* 團體「앨리스(Alicce,音譯)」共同進行的實驗發現,只依靠公開程式碼託管平台上可取得的工具,就能快速破解模型的安全「*護欄(guardrails)*」。經過修改後的模型,開始回應原本會拒絕的指令,包括涉及 *生物武器*、*惡意程式碼*、*化學危險物質* 等高風險議題的提問。
「評論」:這顯示只要具備一定技術門檻,任何人都能在現有生態環境中,將「安全版」模型轉化為「無限制版」,而不需動用黑市或高階駭客手段。
這一結果凸顯出開源 *AI 模型* 隨著能力增強、使用範圍擴大,現行監管工具的「*實際效力*」恐怕會逐漸削弱。與封閉式商業模型不同,開源系統允許任何人自由下載、修改甚至再次散布,開發公司在模型釋出後,已難以持續強制執行安全標準。
目前,歐盟的「*AI 法案(AI Act)*」、以及美國與英國圍繞「*前沿模型(Frontier Models)*」所展開的監管討論,多半聚焦在模型「訓練與開發階段」,對於「被修改後的再散布模型」與「實際被濫用時的情境」,仍存在明顯缺口。這也引發外界質疑:現有規範是否真的能對開源 *AI* 形成足夠約束。
開源位置服務專案 *XYO* 的共同創辦人馬爾庫斯·雷文(Markus Levin)指出,一旦「*開放模型*」公開上線,*控制權* 便會極快速地從原始開發者手中轉移。他強調,隨著模型副本在不同平台與伺服器之間四散,監管與技術約束將愈來愈難追蹤。
去中心化搜尋與排序專案「Olas」與 AI 風險研究機構「Valory」的戴維·米納爾施(David Minarsch)則表示,只要有心的人,始終可以持續取得已被複製的模型「*權重(weights)*」。在這種情況下,若監管只鎖定「最初開發階段」,效果恐怕有限;他認為,將焦點放在「*模型的散布、託管與實際惡意使用行為*」上,才可能打造出更有實際效用的 *AI 安全* 架構。
區塊鏈安全公司「*CertiK*」的執行長龍輝·古(Longhui Gu)也警告,僅依賴開發商層級的「*公司治理*」並不足夠。他提出,若能對「*商業雲端託管服務*」、企業內部導入與主要流通管道施加更嚴謹的管理,例如要求服務商遵守特定 *AI 安全* 標準、記錄敏感模型部署與調用紀錄,將更有利於在不壓垮創新的前提下,實際降低系統性風險。
「評論」:上述觀點的共同點在於,*權力與責任已不再只掌握在模型開發公司*,而延伸到雲端平台、企業用戶與應用開發者這條完整供應鏈。如果缺乏「跨節點」的協調治理,即使在源頭施加再嚴格的安全訓練,也難以阻止模型「解鎖版」在網路世界持續流傳。
綜合來看,此次實驗進一步說明,隨著開源 *AI 模型* 快速擴散,雖然能促進「*技術創新*」與降低入門門檻,但若「*安全防護*」與「*治理機制*」無法同步升級,*AI 安全* 的新風險將被不斷放大。如何在鼓勵開放與確保安全之間取得平衡,正逐漸成為各國監管機構、科技企業與開源社群無法迴避的核心難題。
留言 0