Google 推出 Gemini 3.1 Flash Lite：超低延遲輕量模型鎖定高流量、低成本推論場景

Wed, 04 Mar 2026, 07:53 am UTC

Google 推出 Gemini 3.1 Flash Lite：超低延遲輕量模型鎖定高流量、低成本推論場景 / Tokenpost

Google 近期正式發表「*Gemini 3.1 Flash Lite*」，這款新一代「*輕量模型*」主打極低延遲與低「*推論成本*」，明顯鎖定需要處理「*大規模流量*」的企業與開發者場景。

根據 Google 公布的資訊，*Gemini 3.1 Flash Lite* 目前已透過「*Gemini API*」在 *Google AI Studio* 以「*開發者預覽*」形式開放，同時企業使用者也能在 *Vertex AI* 上導入部署。Google 將其定位為「*Gemini 3 系列中速度最快且最具成本效益*」的模型，特別針對「*高頻率、大量請求*」這類對「*延遲時間*」與「*成本*」極度敏感的工作負載進行優化。

在「*收費模式*」方面，*Gemini 3.1 Flash Lite* 的價格從「每 100 萬輸入 Token 0.25 美元、每 100 萬輸出 Token 1.50 美元」起跳，在 Google 既有的 AI 模型產品線中屬於偏低價位區間。對於需要長期承擔海量推論請求的團隊來說，這樣的「*Token 定價*」有助於壓低整體「*總持有成本（TCO）*」，尤其是在生成式 AI 從「試驗階段」進入「正式營運階段」後，推論費用往往成為關鍵壓力來源。

Google 亦公開內部「*效能測試*」結果。與前一代 *Gemini 2.5 Flash* 相比，*Gemini 3.1 Flash Lite* 在「*首個回應 Token（time to first answer token）*」上快了約 2.5 倍，整體「*輸出生成速度*」則提升約 45%，同時官方強調回應「*品質相近甚至更佳*」。這意味著不僅對話類服務的體感速度明顯改善，長文生成、批次輸出等場景的吞吐量也能同步受益。

為了回應「*輕量模型市場*」愈趨激烈的競爭，Google 這次也主動公布多項「*第三方風格指標*」。官方指出，*Gemini 3.1 Flash Lite* 在 Arena AI 榜單中取得 Elo 1432 分，在高難度推理測試「*GPQA Diamond*」上達到 86.9%，在多模態評測「*MMMU Pro*」中則拿下 76.8%。對企業決策者而言，這組數據傳遞的訊號是：這不只是「*便宜的模型*」，而是在實際營運環境中仍維持一定「*推理能力*」與「*多模態表現*」的選項。

在「*應用場景*」上，Google 表示 *Gemini 3.1 Flash Lite* 主要為「*高頻使用任務*」量身打造，例如「*機器翻譯*」、「*內容審核／模組化（Moderation）*」、「*大規模指令遵循（Instruction Following）*」等，同時也能處理難度更高的工作，包括「*介面（UI）生成*」、「*情境模擬／模擬器製作*」、「*結構化資料處理*」等進階任務。搭配這次在 *Google AI Studio* 與 *Vertex AI* 同步上線的「*可調整思考（thinking）層級*」功能，開發者可以依照任務難度與預算，在「*推理深度*」、「*回應速度*」與「*成本*」之間靈活調整，找出最合適的平衡點。

評論

在生成式 AI 進入「*大規模部署*」階段後，市場焦點已從單純追求「*最高模型能力*」，逐漸轉向「*單次請求成本*」與「*端到端延遲*」的削減競賽。*Gemini 3.1 Flash Lite* 的推出，等於是 Google 正面宣告，要在「*高流量、低成本*」這一細分市場搶佔心智。若官方宣稱的效能與成本結構能在實際環境中重現，對於需要在「數十萬到數億級別請求」下維持服務品質的產品團隊來說，將是一個值得納入評估清單的「*高效推論解決方案*」。

#Google # Gemini 3.1 Flash Lite # 輕量模型 # 生成式 AI # 推論成本 # 大規模流量 # Vertex AI # Google AI Studio # 企業級 AI # 高頻任務 # 機器翻譯 # 內容審核 # 多模態模型 # 效能測試 # Token 定價