在IEEE安全与隐私研讨会上,来自中国和新加坡的研究团队展示了一种新型攻击:攻击者可将人耳无法察觉的对抗性指令嵌入YouTube视频、播客或歌曲等常见音频中。当这些音频被智能音箱或手机等设备播放时,语音AI助手可能在用户无感知的情况下被操纵,进而执行绑定账户的敏感操作,包括访问私人照片、银行信息等。
这种攻击手法令人联想到科幻剧集《黑镜》中的情节,但研究人员已通过实验确认其在现实中的可行性。
攻击原理与实现
研究团队构建出被称为“对抗性音频”的信号,其训练过程仅需半小时。与传统语音攻击依赖特定触发词不同,该信号具有上下文无关特性:无论用户对语音助手说出什么指令,攻击信号都能持续生效,诱使模型执行预设的恶意操作。团队领衔作者、浙江大学博士生Meng Chen向IEEE Spectrum表示,现有基于单一命令的防御措施很难区分正常用户意图与攻击指令。
目前,实施此类攻击需要攻击者掌握目标AI模型的完整权重,因此主要针对开源模型。但由于许多商业语音AI产品基于开源模型构建,研究人员成功测试了微软和Mistral的相关产品,证明攻击在这些主流系统中同样有效。
局限与行业回应
微软在一份声明中回应称,该研究有助于理解此类技术并提升模型韧性,但同时指出研究是在直接与模型交互的受控环境中进行的,实际应用场景中攻击难度可能更高。Mistral则未回应IEEE的置评请求。
研究团队的工作展示了隐蔽音频攻击的现实可行性。随着语音AI在智能家居、客服系统等场景的广泛部署,用户播放来源不明的音频时可能无意中暴露个人数据。尽管当前攻击需直接访问模型权重,但该安全研究已推动学术界与产业界探索更强的防御机制。
本文参考来源:Futurism



