涂鸦智能近日正式推出自主研发的PVAD(Personal Voice Activity Detection,个性化语音活动检测)模型。该模型以“开箱即用、隐式注册、专属响应”为核心设计理念,旨在为AI硬件开发者提供即插即用的语音感知底座,从底层降低语音交互在专属感和隐私安全方面的实现门槛。
核心能力与指标
传统语音交互需要用户提前录入声纹、建立特征库,流程繁琐且存在数据合规风险。PVAD模型采用隐式特征建模路线,无需任何预注册步骤。用户在首次开口交互时,模型便实时融合声学特征与语义信息完成无感建模,实现“开口即专属”的自然体验。
依托云端高性能推理引擎,PVAD模型达到160ms的音频追踪粒度,单次说话人比对耗时低于30ms,形成“边收包、边计算、边响应”的实时流水线。在实际家庭场景中(电视声、多人交谈、儿童跑动等),模型保持:目标说话人召回率93%,非目标用户拒识率95%,平均端到端确认延迟低于240ms(含网络传输与模型推理)。这使设备能随时被打断、秒级响应,大幅提升对话流畅度。
隐私安全方面,模型将“用完即焚”作为原生设计原则:说话人特征按需保活,实时语音不留存,每次交互结束后声纹数据立即销毁。这一设计既为用户提供了无负担的安心体验,也为出海品牌商提供了符合全球数据隐私法规的合规保障。
生态集成与适用场景
PVAD模型通过涂鸦智能全栈开发平台面向全球开发者开放集成,开发者无需自研即可将其快速接入各类硬件形态。典型应用包括智能家居场景——即使在客厅电视噪音或多人闲聊中,设备仍能精准锁定目标用户的声音,减少误唤醒和漏响应,从而提升整体的交互体验。
该模型是涂鸦智能“物理世界AI基座”战略的一部分,其发布意味着AI硬件厂商可以跳过声纹注册与隐私合规的重复开发,直接获得一套即插即用的语音感知解决方案,加速产品落地。
本文参考来源:涂鸦智能(WeRSS)
微信扫描下方的二维码阅读本文


