Back to top
  • 공유 分享
  • 인쇄 列印
  • 글자크기 字體大小
已複製網址

Google 推出 Gemini 3.1 Flash Lite:超低延遲輕量模型鎖定高流量、低成本推論場景

Google 推出 Gemini 3.1 Flash Lite:超低延遲輕量模型鎖定高流量、低成本推論場景 / Tokenpost

Google 近期正式發表「*Gemini 3.1 Flash Lite*」,這款新一代「*輕量模型*」主打極低延遲與低「*推論成本*」,明顯鎖定需要處理「*大規模流量*」的企業與開發者場景。

根據 Google 公布的資訊,*Gemini 3.1 Flash Lite* 目前已透過「*Gemini API*」在 *Google AI Studio* 以「*開發者預覽*」形式開放,同時企業使用者也能在 *Vertex AI* 上導入部署。Google 將其定位為「*Gemini 3 系列中速度最快且最具成本效益*」的模型,特別針對「*高頻率、大量請求*」這類對「*延遲時間*」與「*成本*」極度敏感的工作負載進行優化。

在「*收費模式*」方面,*Gemini 3.1 Flash Lite* 的價格從「每 100 萬輸入 Token 0.25 美元、每 100 萬輸出 Token 1.50 美元」起跳,在 Google 既有的 AI 模型產品線中屬於偏低價位區間。對於需要長期承擔海量推論請求的團隊來說,這樣的「*Token 定價*」有助於壓低整體「*總持有成本(TCO)*」,尤其是在生成式 AI 從「試驗階段」進入「正式營運階段」後,推論費用往往成為關鍵壓力來源。

Google 亦公開內部「*效能測試*」結果。與前一代 *Gemini 2.5 Flash* 相比,*Gemini 3.1 Flash Lite* 在「*首個回應 Token(time to first answer token)*」上快了約 2.5 倍,整體「*輸出生成速度*」則提升約 45%,同時官方強調回應「*品質相近甚至更佳*」。這意味著不僅對話類服務的體感速度明顯改善,長文生成、批次輸出等場景的吞吐量也能同步受益。

為了回應「*輕量模型市場*」愈趨激烈的競爭,Google 這次也主動公布多項「*第三方風格指標*」。官方指出,*Gemini 3.1 Flash Lite* 在 Arena AI 榜單中取得 Elo 1432 分,在高難度推理測試「*GPQA Diamond*」上達到 86.9%,在多模態評測「*MMMU Pro*」中則拿下 76.8%。對企業決策者而言,這組數據傳遞的訊號是:這不只是「*便宜的模型*」,而是在實際營運環境中仍維持一定「*推理能力*」與「*多模態表現*」的選項。

在「*應用場景*」上,Google 表示 *Gemini 3.1 Flash Lite* 主要為「*高頻使用任務*」量身打造,例如「*機器翻譯*」、「*內容審核/模組化(Moderation)*」、「*大規模指令遵循(Instruction Following)*」等,同時也能處理難度更高的工作,包括「*介面(UI)生成*」、「*情境模擬/模擬器製作*」、「*結構化資料處理*」等進階任務。搭配這次在 *Google AI Studio* 與 *Vertex AI* 同步上線的「*可調整思考(thinking)層級*」功能,開發者可以依照任務難度與預算,在「*推理深度*」、「*回應速度*」與「*成本*」之間靈活調整,找出最合適的平衡點。

評論

在生成式 AI 進入「*大規模部署*」階段後,市場焦點已從單純追求「*最高模型能力*」,逐漸轉向「*單次請求成本*」與「*端到端延遲*」的削減競賽。*Gemini 3.1 Flash Lite* 的推出,等於是 Google 正面宣告,要在「*高流量、低成本*」這一細分市場搶佔心智。若官方宣稱的效能與成本結構能在實際環境中重現,對於需要在「數十萬到數億級別請求」下維持服務品質的產品團隊來說,將是一個值得納入評估清單的「*高效推論解決方案*」。

<版權所有 ⓒ TokenPost,未經授權禁止轉載與散佈>

最受歡迎

其他相關文章

留言 0

留言小技巧

好文章。 希望有後續報導。 分析得很棒。

0/1000

留言小技巧

好文章。 希望有後續報導。 分析得很棒。
1