涂鸦智能发布PVAD模型:隐式注册+160ms追踪,定义AI硬件语音交互新标准

涂鸦智能发布PVAD模型,采用隐式特征建模、160ms追踪粒度与结束即焚的隐私设计,为AI硬件提供即插即用的语音感知底座,定义新的语音交互标准。

涂鸦智能近日正式推出自主研发的PVAD(Personal Voice Activity Detection,个性化语音活动检测)模型。该模型以“开箱即用、隐式注册、专属响应”为核心设计理念,旨在为AI硬件开发者提供即插即用的语音感知底座,从底层降低语音交互在专属感和隐私安全方面的实现门槛。

核心能力与指标

传统语音交互需要用户提前录入声纹、建立特征库,流程繁琐且存在数据合规风险。PVAD模型采用隐式特征建模路线,无需任何预注册步骤。用户在首次开口交互时,模型便实时融合声学特征与语义信息完成无感建模,实现“开口即专属”的自然体验。

依托云端高性能推理引擎,PVAD模型达到160ms的音频追踪粒度,单次说话人比对耗时低于30ms,形成“边收包、边计算、边响应”的实时流水线。在实际家庭场景中(电视声、多人交谈、儿童跑动等),模型保持:目标说话人召回率93%,非目标用户拒识率95%,平均端到端确认延迟低于240ms(含网络传输与模型推理)。这使设备能随时被打断、秒级响应,大幅提升对话流畅度。

PVAD模型架构示意图
PVAD模型架构及行业核心指标对比

隐私安全方面,模型将“用完即焚”作为原生设计原则:说话人特征按需保活,实时语音不留存,每次交互结束后声纹数据立即销毁。这一设计既为用户提供了无负担的安心体验,也为出海品牌商提供了符合全球数据隐私法规的合规保障。

生态集成与适用场景

PVAD模型通过涂鸦智能全栈开发平台面向全球开发者开放集成,开发者无需自研即可将其快速接入各类硬件形态。典型应用包括智能家居场景——即使在客厅电视噪音或多人闲聊中,设备仍能精准锁定目标用户的声音,减少误唤醒和漏响应,从而提升整体的交互体验。

该模型是涂鸦智能“物理世界AI基座”战略的一部分,其发布意味着AI硬件厂商可以跳过声纹注册与隐私合规的重复开发,直接获得一套即插即用的语音感知解决方案,加速产品落地。

本文参考来源:涂鸦智能(WeRSS)



微信扫描下方的二维码阅读本文

涂鸦智能发布PVAD模型:隐式注册+160ms追踪,定义AI硬件语音交互新标准 - AI硬件, August智能家居, PVAD模型, 声纹识别, 涂鸦智能, 语音交互, 隐式注册

发表回复