長久以來,我們與人工智慧的互動僅限於對話框。我們提出問題,系統便生成答案。在甫落幕的 Google I/O 2026 大會上,這家科技龍頭清楚展示了單純聊天機器人的時代已經告終。取而代之的是功能完備的 AI 代理,它們能代為處理現實世界中的繁瑣庶務。
本次發表會的核心技術突破在於 Gemini Omni 系列模型。這不僅僅是文字引擎的升級。開發者將 Omni 稱為「世界模型」(world model)。它的關鍵特性在於對物理定律、情境脈絡的深度理解,以及互動式的多模態功能。在實際應用中,這意味著用戶只需透過簡單的語音指令,就能徹底重寫用手機拍攝的任何影片場景:從調整天氣、更換背景、修正拍攝角度到增加新角色。該系列的初步工具 Omni Flash 將於今年夏季率先在 YouTube Shorts 和 Gemini 應用程式中推出。
與此同時,Google 正在為所謂的「代理商務」(agent commerce)奠定基礎。您是否曾感到線上購物非常耗神,必須在不同商店的數十個分頁中反覆比較?統一的 Universal Cart 生態系統正是為了解決這項痛點而生。
現在,來自搜尋引擎、Gmail 或 YouTube 的商品都能集中到同一個智慧購物車中。神經網絡會在背景監控價格波動,透過 Google Wallet 尋找隱藏優惠,甚至會檢查產品的相容性。想像您正在組裝電腦:如果所選處理器與主機板不相容,AI 將會自動發出警告。接著,它會主動提供來自其他零售商的建議方案。最後,來自不同商店的整批商品,只需透過 Google Pay 就能一鍵完成付款。
將財務授權給演算法處理,是否會引發安全性疑慮?答案是肯定的,因此 Google 推出了「代理支付協定」(AP2)。該協定建立了受保護的數位授權機制與嚴格的支出上限。AI 代理(例如全新的背景助理 Gemini Spark)雖然能代您預約餐廳或訂購外送,但最終的扣款手續仍需經過人工驗證。
AI 的整合正逐步跨出螢幕限制。到今年年底,該生態系統將與穿戴式裝置緊密結合,包括先前發表的 Android XR 智慧眼鏡。長遠來看,這將構建出一個無縫的數位環境,讓科技能預判我們的任務情境,徹底免除繁瑣的點擊操作。




