涂鸦智能发布PVAD模型：隐式注册+160ms追踪，定义AI硬件语音交互新标准

涂鸦智能近日正式推出自主研发的PVAD（Personal Voice Activity Detection，个性化语音活动检测）模型。该模型以“开箱即用、隐式注册、专属响应”为核心设计理念，旨在为AI硬件开发者提供即插即用的语音感知底座，从底层降低语音交互在专属感和隐私安全方面的实现门槛。

核心能力与指标

传统语音交互需要用户提前录入声纹、建立特征库，流程繁琐且存在数据合规风险。PVAD模型采用隐式特征建模路线，无需任何预注册步骤。用户在首次开口交互时，模型便实时融合声学特征与语义信息完成无感建模，实现“开口即专属”的自然体验。

依托云端高性能推理引擎，PVAD模型达到160ms的音频追踪粒度，单次说话人比对耗时低于30ms，形成“边收包、边计算、边响应”的实时流水线。在实际家庭场景中（电视声、多人交谈、儿童跑动等），模型保持：目标说话人召回率93%，非目标用户拒识率95%，平均端到端确认延迟低于240ms（含网络传输与模型推理）。这使设备能随时被打断、秒级响应，大幅提升对话流畅度。