智能音箱，你在窃听我吗？

谣传与真相

“最近一年，身边很多朋友买智能音箱前，都会来问我监听问题”，张思成说。他先后在多家公司的智能音箱部门工作，被朋友们视为行业专家。“比较有趣的是，问完之后，几乎每个人都还是买了音箱。”

据张思成及多位熟悉智能音箱的从业者介绍，智能音箱的识别工作分为“本地”和“云端”两种情况，在智能音箱处于未唤醒状态时，为本地工作状态，虽然会收录外界声音，但不会对这些声音进行存储与语义识别。“唤醒前相当于在做声波识别的工作，”徐家明介绍说，“（智能音箱）将收录的声音与唤醒词做对比，声波相符时，才会自动打开。”徐家明是一位智能音箱产品经理。

张思成否认了“偷偷监听”的传言，据他了解，市场主流的多款国产智能音箱无一存在主观故意监听的情况。

“这是一件成本很高的事情”，张思成认为。他这样算了一笔账：假设一家企业累计售出100万台音箱，有20万日活，如果企业要启动这些音箱做24小时监听，就算每秒钟产生100k数据，乘以20万的话，累计起来传输带宽、存储和计算的花费相当惊人。

更关键的是，在当前的技术处理能力下，企业尚不能将这些庞大而又碎片化的录音转化为有商业价值的有效信息。在张思成看来，就算不考虑道德层面，只看商业利益，企业也没有动机去做主观的信息收集。

据张思成回忆，在去年的一项由国家工信部主导的智能音箱检测工作中，在未唤醒状态下，各家智能音箱传输的数据量均仅为KB级别，对于语音资料而言，这一数据量几乎可以忽略不计。

与“窃听”传言较为相符的内容是“唤醒词”之后的智能音箱工作模式。

张思成和徐家明均承认，音箱被唤醒后，将进入云端工作状态，将收取的声音传输至云端服务器，完成语音语义识别和反馈工作。“这是无法避免的，”张思成有些无奈，他提到，目前智能音箱内置的运算能力，无法支撑AI类的语音语义计算，更无法在本地实现识别能力的提升。

为了避免网络故障和隐私问题，在一些客户定制的全屋智能中，张思成的公司曾提供过仅在本地运算的语音方案。不过，这将使功能性变得非常单一，仅支持固定命令，例如，主人回家后，可告诉语音助手“打开灯”，但若换成“打开这盏灯”，它便无法识别。

按照智能音箱的产品策略，当用户结束命令，如数秒内无新声音出现，机器则会恢复休眠状态。“每家品牌设定不太一样，有的是3秒内、有的是5秒内，”徐家明透露。然而，在实际工作中，由于智能音箱整体成熟度有限，“唤醒”和“休眠”均有可能出现误差。“例如刚好有声音和唤醒词相似，或者命令结束后有其他声响，使智能音箱以为需要继续工作，它就会持续收音，而用户对此是不知道的。”据他推测，包括司兰在内，众多用户遭遇的所谓“窃听事件”，均源于这类原因。

据多位从业者介绍，目前智能音箱行业内较理想的“误唤醒率”约为每48小时2次，更糟糕的情况则达到每24小时2-3次，这无疑意味着误操作下较高的所谓“窃听”频率。“对于各家品牌来说，当下最关键的都是提高AI能力，减少误操作，收集来的语料是最好的训练素材。”徐家明提到。

节选自《全天候科技》