Google Gemini Live跨应用体验:与Siri的系统集成仍有差距

Google Gemini Live新增跨应用操作能力,允许用户在视频通话等前台任务中通过语音发送消息。但与Siri相比,Gemini在系统级集成深度上仍有差距。本文梳理两者差异并探讨AI助手人性化的关键。

Google近期为其AI助手Gemini的对话式语音模式Gemini Live加入了跨应用操作能力。据官方介绍以及部分用户反馈,该功能允许用户在保持全屏视频通话、观看视频或进行其他前台任务时,通过语音指令调用消息类应用发送文本,或控制部分Google自家应用执行特定操作。这一更新试图让Gemini在实用性上更接近苹果的Siri,但从实际体验来看,两者在系统级集成深度上仍存在显著差异。

Gemini Live跨应用操作的功能边界

根据Google的更新说明,Gemini Live的跨应用操作主要围绕“对话中执行任务”场景展开。例如,当用户在Google Meet中进行视频会议或正通过YouTube观看内容时,可以唤醒Gemini说出“给某人发短信”或“在WhatsApp里告诉XX我稍后回复”,Gemini会尝试打开对应的应用并填写信息。在CNET的对比测试中,该功能在Google自家的信息应用以及第三方应用WhatsApp上表现不同:在信息应用中,Gemini仅打开短信起草界面并要求用户手动确认发送;而在WhatsApp内,Gemini能够直接自动完成发送,省去确认步骤。这种不一致性表明,跨应用操作的权限与适配尚未完全打通,目前仍局限于部分经过深度适配的应用程序。

另一方面,Gemini Live的核心体验在于流畅的语音对话能力。用户无需说唤醒词即可连续交谈,并且支持随时打断和话题切换。这一交互模式的响应速度和拟人程度较传统语音助手有明显提升,但一旦涉及具体应用控制,Gemini仍需要将控制权移交给应用本身,缺乏类似Siri在iOS中那种直接发送短信、播放特定播放列表或调整系统设置的端到端执行能力。

Siri:系统级集成的代表及其局限性

苹果Siri的优势在于与iOS及macOS的深度绑定。用户可以通过语音指令完成发送信息、拨打电话、创建提醒、控制家庭设备等任务,这些操作大多不需要用户手动确认即可执行。从系统整合角度看,Siri已经实现了类似“端到端”的控制闭环。然而,Siri在自然语言理解、连续对话和上下文记忆方面长期落后于竞争对手。例如,Siri无法在一次唤醒中连续完成多个相关指令,也缺乏像Gemini Live那样的动态打断和话题切换能力。

苹果在WWDC上公布的Apple Intelligence计划试图借助大语言模型提升Siri的语义理解与生成能力,并开放部分App Intents框架实现更丰富的跨应用操作。但截至目前,这些改进尚未大规模落地。对于用户而言,Siri依然是一个“听话但不够聪明”的助手,而Gemini则展示了“聪明但不够听话”的另一面。理想中的AI助手应当同时具备深度的系统控制能力和灵活的对话智能,但目前两者处于割裂状态。

AI助手人性化困境:从工具到伙伴的距离

无论是Gemini还是Siri,当前的语音助手均以“指令响应”为核心模式——用户发起请求,助手执行或引导执行。这种模式的本质仍是一个语音控制的图形界面,而非具有主动性、记忆和个性化行为的智能体。CNET评论文章指出,用户真正需要的是一位能记住偏好、预判需求、甚至在适当时机主动提供帮助的“伙伴”,而不是一个只会等待指令的搜索引擎。从这一维度看,Gemini Live的跨应用更新并未改变助手的工具属性,而Siri对Apple Intelligence的整合也尚未展现出足够的主动性。

同时,跨应用操作面临隐私与安全挑战。苹果坚持设备端处理许多Siri请求以保护用户数据,这限制了其访问第三方应用内容和云端大模型能力。Google的Gemini则依赖云端模型来实现更复杂的多轮对话和语义理解,但在涉及敏感信息的应用交互时,用户信任成本更高。如何在智能化与隐私保护之间取得平衡,是所有AI助手厂商需要持续解决的课题。

从目前两个生态的进展来看,谷歌选择先打通对话流畅性,再逐步扩展应用控制;苹果则优先保障系统控制的安全性,再缓慢升级对话智能。两条路径各有取舍,但均未达到用户对“真正智能助手”的期待。未来AI助手的竞争可能不再局限于单一功能的优劣,而是谁能率先突破“被动响应”的边界,迈向融合上下文理解、长期记忆与主动服务的全新交互范式。

(本文基于CNET评论文章梳理事实与分析,不代表本站立场。)

Gemini与Siri对比示意图
左:Google Gemini Live界面;右:iOS端Siri。两者在交互与系统集成上各有侧重。

本文参考来源:CNET

发表回复