Gemini Omni：Google I/O 2026 前我們已知的一切

Google 的 Gemini Omni 在 I/O 2026 開幕前十天悄然外洩。本文整理外洩始末、三種可能解讀、與現有主流 AI 影片模型的完整比較，以及預計發布時程。

Gemini Omni 可能是 Google 有史以來最具突破性的 AI 模型——而它甚至還沒正式發布。在 Google I/O 2026（5 月 19–20 日）開幕前十天，Gemini 介面內部浮現了一段指向全新統一模型的字串，暗示該模型能在單一流程中完成文字、圖像與影片的生成。以下是目前已知的所有資訊：外洩始末、三種可能解讀、與現有主流模型的比較，以及完整的發布時程預測。

Gemini Omni 是如何被發現的？

2026 年 5 月 2 日，X 用戶 @Thomas16937378 在 Gemini 影片生成分頁中發現了一段異常字串：「Start with an idea or try a template. Powered by Omni.」這段文字出現在 「Toucan」 旁邊——Toucan 正是 Veo 3.1 的內部代號——由此可以明確判斷這是一個獨立的全新系統。

這也是 Google 首次在影片生成工具上使用全新的對外品牌名稱。過去所有版本都沿用「Veo」品牌，改名為「Omni」是一個刻意的訊號，暗示架構層面的重大變革，正如 Android Authority 所報導的。外洩消息在數小時內迅速擴散，隨後流出的示範影片顯示，Omni 在提示詞遵循度與語音生成品質上已超越 Veo 3.1。

三種可能的解讀

AI 社群目前對 Gemini Omni 的本質有三種主要解讀：

1. Veo 的品牌重塑 — Omni 只是 Gemini 內部 Veo 路徑的新消費者名稱，架構上無重大變化。這是最保守的解讀。

2. 全新的並行模型 — Omni 是在 Gemini 生態系內部訓練的全新模型，與 Veo 3.1 並存，讓開發者根據需求選擇使用。

3. 真正的統一 Omni 模型 — Omni 是能在單一流程中處理文字、圖像與影片生成的統一模型，將是業界首個具備影片輸出能力的頂級 Omni 模型。外洩示範與「Omni」命名都指向這一解讀最有可能成真。

為何統一 Omni 模型將改變一切？

目前所有主流影片模型——Seedance、Kling、Runway、Hailuo——都專門處理影片生成。統一模型帶來的優勢是它們無法企及的：

單一提示詞即可生成具備視覺一致性的圖像與影片序列
簡化的開發者工作流程（單一 API、單一模型、單一上下文窗口）
更佳的跨模態理解：模型在動畫化之前已知道它繪製了什麼
同時運行多個專用模型的團隊可大幅降低基礎設施成本

如果第三種解讀屬實，Gemini Omni 不只是在與 Veo 3.1 競爭，而是讓整個單模態影片模型品類顯得過於侷限。

Gemini Omni 與現有 AI 影片及圖像模型比較

模型	開發商	類型	狀態	最適合	最高解析度	核心優勢
Gemini Omni	Google	文字 + 圖像 + 影片	即將推出（I/O 2026）	統一多模態生成	待定	首個具備影片輸出的 Omni 模型
Veo 3.1（Toucan）	Google DeepMind	影片	已上線	電影級畫質、原生音訊	4K	最佳角色一致性
Seedance 2.0	字節跳動	影片 + 音訊	已上線	唇形同步、多鏡頭敘事	4K	商業可用性評分逾 90%
HappyHorse-1.0	阿里巴巴	影片	已上線	頂級基準測試表現	4K	2026 年 5 月 ELO 排名第一
Kling 3.0	快手	影片	已上線	4K/60fps、多鏡頭序列	4K	最自然的動作物理效果
Runway Gen-4.5	Runway	圖像 + 影片	已上線	參考圖像、鏡頭控制	4K	最佳全方位視覺保真度
Midjourney V8.1	Midjourney	圖像	已上線	寫實風格、2K 輸出	2K	同類中渲染速度最快

Google I/O 2026 前的其他洩露資訊

Gemini Omni 並非 Google 在主題演講前唯一暗示的新功能，以下代號與功能也一同浮現：

Gemini 3.2 與 3.5 — 目前在內部測試中的效能強化語言模型版本
Gemini 3.1 Flash-Lite — 已於 2026 年 5 月 8 日發布，輕量化速度優化版本
Teamfood — Gemini 即將推出的長期持久記憶功能
Spark Robin — 視覺模型代號，可能是 Omni 的圖像生成配套系統

外洩資訊的密度暗示 Google 此次不只是單一模型發布，而是更大範圍的 AI 平台更新，Gemini Omni 是這次生態系升級的核心主角。

預計發布時程

5 月 19 日（主題演講） — Gemini Omni 正式發布並進行現場示範
5 月 19–20 日 — 開發者文件與主題演講同步或即刻跟進發布
5 月底至 6 月初 — 第三方平台整合，預計 Gemini Ultra 訂閱者優先獲得 API 存取
2026 年 6 月 — 更廣泛的推出，可能包含附有使用限制的免費版本

現在就開始建立多模型 AI 工作流程

Gemini Omni 尚未上線，但最聰明的做法是在它發布前先建立好多模型工作流程。iMini AI 已將 Kling、Seedance、Runway、Seedream 等主流模型整合至同一畫布，讓你可以比較輸出結果、跨模型迭代，找出最適合你內容風格的選擇。

Gemini Omni 上線後，你可以直接在同一工作區對它與現有所有模型進行基準測試，無需切換工具，不被單一廠商綁定。立即前往 iMini AI，在 Omni 發布的第一天就搶先上手。

常見問題

Gemini Omni 是什麼？

Gemini Omni 是 Google 於 2026 年 5 月初外洩的未發布 AI 模型。預計能在 Gemini 介面的單一流程中統一完成文字、圖像與影片的生成，這在頂級 AI 模型中尚屬首例。

Gemini Omni 什麼時候發布？

Google I/O 2026（5 月 19–20 日）是最可能的公告日期。更廣泛的公開發布預計在主題演講後 2–4 週內，並分層與 Gemini 訂閱方案掛鉤。

Gemini Omni 和 Veo 3.1 有什麼不同？

Veo 3.1（內部代號 Toucan）僅處理影片生成。Gemini Omni 預計能從單一模型處理文字、圖像與影片，且早期外洩示範已顯示在提示詞遵循度與語音生成上優於 Veo 3.1。

Gemini Omni 會免費嗎？

免費版本可能存在，但預計將有嚴格的每日使用限制。完整解析度與更長影片輸出預計需要 Gemini Advanced 訂閱，與目前 Veo 3.1 的定價邏輯一致。

Gemini Omni 也能生成圖像嗎？

是的。如果「真正的 Omni 模型」解讀屬實，Gemini Omni 將能處理圖像生成，可能在單一統一系統中同時取代 Veo 與 Google 現有的 Nano Banana 圖像模型。

Gemini Omni 和 Spark Robin 是同一個東西嗎？

不一定。Spark Robin 是與 Omni 同步外洩的獨立視覺模型代號，兩者可能是配套系統，但 Google 尚未正式確認任何一個產品。