语音大数据背景下如何维护用户隐私环境安全提出可行建议

2024年 3月 6日

【摘要】随着智能语音技术的快速发展，语音大数据已成为越来越重要的信息资源，广泛应用于包括家居在内的各个行业。但同时，在采集语音大数据的过程中，用户的隐私环境面临威胁。本文以最具代表性的智能语音产品智能音箱的使用为例，探讨一方面客观地利用语音大数据进行机器学习对用户隐私环境带来的多层次风险；另一方面，通过智能音箱对用户进行采访，描述用户自己如何评价自己的隐私环境以及做出的隐私决策。用户暴露出对隐私环境认知不足、缺乏隐私意识和自我信息管理能力。这些因素增加了用户语音数据和隐私环境被侵犯的可能性。最后，基于真实风险和用户体验的双重讨论结果，本文还对语音大数据背景下如何维护用户隐私环境的安全提出了可行的建议：无论是政策法规的制定，或产品技术设计，应根据用户能力和需求建立并遵守规范。

基于日益成熟的智能语音交互技术，人与机器之间基于语言的交流变得更加顺畅、更加人性化和多样化。据（知名智库）数据显示，到2020年，超过30%的互联网搜索将不再需要屏幕，而是由语音发起。 ①语音已成为最流行的人机交流方式之一。在技术的支持下，语音大数据量也在以前所未有的速度增长。依托人工智能和机器学习，这些语音大数据可以拼凑出用户个人生活细节，为用户提供更加人性化的服务和产品，实现“闻声识人、凭声推荐”的目标。依靠人们的声音，他们使用的时间越长，他们就越能理解你。” （注：天猫精灵智能音箱标语）目标。从长远来看，智能语音交互技术和语音大数据将深刻改变社会沟通方式。考虑到语音是人类最自然的交互方式，人们将越来越多地投入到与机器的交流中，交流的层次也将不断加深。百度人工智能实验室负责人亚当·科茨（Adam）曾表示，他们的目标是将语音识别的错误率降低到1%。只有这样机器才能真正理解用户所说的话，用户才会信任机器。到那时，“这种语音通信将带来变革。” ②

语音大数据市场的发展离不开智能语音产品的普及。其中，智能音箱是最具代表性的产品之一。从最初的亚马逊Echo智能音箱到谷歌智能音箱Home，从阿里巴巴的天猫精灵到小米的小爱音箱，智能音箱的流行不分国界。 2019年，智能音箱在我国城镇住宅的渗透率达到20%，接近2012年智能手机的渗透水平。 ③智能音箱可以轻松进行开关电器、播放音乐、搜索等生活服务。获取食谱、在线购物，甚至安排旅行路线。正是由于服务内容的广泛性和数据采集场所的隐私性，智能音箱被认为是家庭和私人场景中个人语音大数据的主要入口。智能音箱依靠智能语音助手来提供服务。只要用户对扬声器说出特定的触发词，扬声器就可以立即唤醒并记录用户的请求。发出的请求被发送到云服务器，生成响应，然后追溯到发言者。

毫无疑问，智能语音的分层迭代发展从来都离不开新技术的支撑。但与此同时，也正是通过新技术的开发和运用，也给智能语音交互技术和智能语音产品带来了一系列的变革。新问题。本文以智能音箱为案例，探讨语音交互技术和语音数据采集给个人隐私环境带来的多层次隐患和威胁。通过对用户的访谈，我们试图分析用户对其所生活的隐私环境的看法和态度。在双方讨论的基础上，本文最终根据用户需求和体验，对隐私环境保护方面的未来治理方向提出建议。

1、智能语音技术下的用户隐私风险

随着智能语音产品走进千家万户，语音大数据资源不断积累，用途也越来越广泛。然而，语音数据的收集和利用过程中也存在越来越大的隐私风险。从数据采集和挖掘的角度来看，公民的数字化言行可以融入有价值的私人信息。公共空间和私人空间区别的消解促进了综合隐私的出现。 ④ 但从个体用户体验和需求来看，隐私不仅是综合性的，而且包含多个层面，隐私环境的风险逐层加大。罗杰·克拉克基于马斯洛的需求层次理论，全面解释了用户隐私环境的多层次风险。他在理论中运用了自我实现需求、尊严需求、社会需求、安全需求和生理需求“五个层次”，提出了以隐私需求为核心的个人隐私价值体系（之-）：包括身体隐私、个人隐私行为隐私、个人通信隐私、个人数据隐私、个人体验隐私。 ⑥ 他认为隐私是个人维护个人空间的权利。隐私涉及个人需求的各个方面，并与个人诚信相关。 ⑦Clark提出的多层次隐私价值体系，可以覆盖智能音箱使用过程中从具体到抽象、从低级到高级的用户隐私环境的风险和威胁。

首先，对应马斯洛需求层次理论中的生理需求和安全需求，第一类隐私是身体隐私，即人们需要保护个人身体的物理信息。智能音箱对用户身体隐私的侵犯主要集中在两个方面。一方面，语音本身作为重要的个人生物识别数据之一，在智能音箱的使用过程中可能会受到侵犯——在数据管理和法规缺乏的情况下，上传到云端的用户语音和产品序列号就足够了来定位个人。另一方面，一些基于声音信息开发的智能音箱的升级功能可能会给身体隐私带来更多威胁：例如，智能音箱正在开发的新功能可以通过比较记录的音频样本来监测心脏的不规则情况。正常响应时，当用户心脏器官突然停止跳动，用户无法呼吸或喘气时，智能音箱可以自动发起求救呼叫；再比如，小度音箱接入百度搜索资源，为老年人提供科学的健康知识，并可以提醒老年人按时吃饭。吃药并测量血压。这项服务的前提是老年人的身体健康信息充分暴露在智能音箱面前。

第二类隐私是个人行为隐私，它对应着人们的社会需要和尊严需要。具体来说，是指保护用户在私人场所（如家庭）的个人行为和活动隐私的需要。使用智能音箱时，可以轻松获取有关个人行为的位置和具体活动的信息。目前，一些智能音箱（包括苹果的智能音箱）采用麦克风矩阵技术，可以检测附近物体表面的声音反射，从而自动感知特定的地理位置——无论是靠在卧室的墙上还是在房间的中央。客厅，然后回应不同的空间。对声音信号进行再处理以提高语音识别率。这意味着智能音箱可以进一步细分私人家居空间的活动区域。此外，与智能音箱的交互，比如通过智能音箱定制日常闹钟、设置提醒提醒、网购娱乐等，看似不连贯的生活片段，经过时间的积累，足以勾勒出用户的行动模式和生活图景。。智能音箱还可以了解用户的社交需求信息。通过导入手机通讯录或联系人，智能音箱的通讯功能可以拨打电话或留言语音。有些智能音箱可以根据不同家庭成员的声音推送不同的服务，这实际上是基于对家庭人际信息的分析和处理。

第三类隐私是个人交往的隐私，这也对应着社会需求、尊严需求和一些自我实现的需求。个人需要确保个人沟通不受阻碍或监控。这是智能语音技术可能侵犯的最简单、最常见的用户隐私级别。此前，谷歌和亚马逊均被媒体曝出利用人工智能来收听用户与智能音箱之间的对话录音。从某种意义上说，用户的通信受到了“监控”。 2019 年彭博社对 Echo 智能音箱的一项调查描述了亚马逊如何雇佣数千名员工来提高其智能音箱语音助手的认知水平。 ⑧人工团队专门负责监听并转录用户在家中与智能音箱的对话。将其转换为文本，进行注释，然后输入到软件中。人类转录员在内部聊天室中分享他们的转录和注释过程。此外，由于人工智能技术尚不完善，误唤醒率高、不稳定等问题仍然是所有智能音箱面临的问题。意外唤醒时的语音采集极大侵犯了用户通信的隐私。目前，大多数智能音箱的隐私条款都没有提及将手动收听用户录音，也没有提及即使不小心开始的对话也会被手动收听。因此，用户的通信隐私在用户不知情的情况下受到了侵犯。

第四类隐私是个人数据的隐私。个人数据的隐私对应了马斯洛需求系统的高层次需求，包括自尊需求和自我实现需求。这种类型的隐私强调个人有权处理个人数据。智能音箱收集的数据不仅仅是语音数据，还包括从第三方获得的个人信息数据和共享数据。智能音箱及其附属平台的系统设计允许用户在注册后立即向智能音箱提供大量个人信息。例如，天猫精灵利用淘宝平台向用户提供服务。用户需要按照淘宝平台的要求创建账户，并使用淘宝用户名和密码登录天猫精灵客户端。智能音箱虽然向第三方技能和服务提供用户信息，但并不对第三方如何处理用户数据负责。这些个人数据不受智能音箱隐私政策的保护，而是取决于第三方技术提供商的隐私政策。即使用户具有隐私意识并愿意主动管理个人数据隐私，用户的权力仍然有限。大多数智能音箱制造商只允许用户通过应用程序访问和查询信息，但用户无权删除自己的语音交互数据，除非选择停止产品或服务。

第五类隐私涉及个人经历的隐私，对应个人最深层的需求。这是最难量化和评估，但影响最深远的隐私类别。当用户使用智能音箱与语音助手聊天时，有时已经无法判断他或她正在与机器还是朋友打交道。媒体对等理论的研究范式认为，人们将计算机、电视等媒体视为社会中的人，并根据社会线索（如语音等）形成一定的社会规则（如以礼相待、互惠互动等）。、语言风格等）并对它们产生社会反应（如信任、爱等）。 ⑨当用于人与智能音箱的交互时，用户其实很难意识到其流露了多少个人感受和经历。甚至用户与智能音箱的交互也不完全是机器为用户服务的过程，而是一个相互适应的过程：用户所看到的、听到的、感受到的也在与智能音箱语音助手交互的过程中发生着微妙的改变。。从这个角度来看，不仅用户过去的个人经历在交流过程中容易暴露，而且还与智能音箱共同创造了某种与体验相关的隐私。

2. 用户在个人隐私环境中的体验和关注点

语音大数据背景下如何维护用户隐私环境安全提出可行建议

克拉克提出的多层次隐私理论的核心特征是从个体需求和具体情境出发，关注个人感受和价值观。延续这一理念，本文采用半结构化访谈的方式采访了 13 位智能音箱用户，讨论用户在智能音箱的具体使用过程中是否意识到智能音箱对其隐私环境构成的威胁以及他们做出了哪些隐私决策。考虑到短时间使用后很难对访谈问题产生共鸣，本研究仅考虑使用智能音箱三个月以上的用户作为访谈对象。受访者按照N1-N13进行编码，并根据漏洞感知、隐私意识和信息管理三个维度对访谈后的数据分析进行归纳总结。访谈于2020年8月进行，在受访者的工作场所、家中或通过视频通话进行。每次采访持续约30分钟。

根据Mark 等人的研究，人们对隐私环境的担忧（）包括三个要素：漏洞认知（）、隐私意识（）和信息管理（）。 ⑩“漏洞感知”是“隐私关注”的前提要素。它讨论了个人如何感知信息暴露以及如何预测其所处隐私环境中的风险。在 () 对隐私的正式定义中，脆弱性是隐私定义中的一个重要因素：“隐私，全部或部分地代表了控制人与人之间的交易，最终目标是增强自主性并最大限度地减少脆弱性和无助感。” ⑪ 用户对脆弱性的认知度越高，担心隐私环境的可能性就越大。 “隐私意识”是“隐私关注”的平行指标，是指人们在实践中对隐私政策及其他相关信息的认知程度。隐私意识越高、对自己行为中侵犯隐私的后果认识越深刻的个体，必然会对自身的隐私环境产生更高的警惕和担忧。基于用户的“脆弱感知”程度和“隐私意识”水平，个人会主动选择隐私控制方式，即“信息管理”。用户的“信息管理”行为往往取决于他们的自我价值。在这里，那些强调自我价值和个人主义的人通常与那些更喜欢个人直接数据控制的人成正比；而具有集体价值观的则更倾向于个人。数据由代理管理，例如其他或政策约束。 ⑫

以此为参考，本文按照漏洞感知、隐私意识和信息管理三个要素，对用户隐私关切的访谈内容进行编码和分析。关于“脆弱性感知”，受访者在使用智能音箱之前的假设和行为准备表明，他们在面对智能语音交互技术时，对隐私环境的脆弱性感知较低。换句话说，用户并没有意识到这种可能性。隐私风险是可以合理预期的。大部分受访者参与交换或网购智能音箱作为礼物，并不了解智能音箱的工作流程。事实上，近年来，为了快速占领家庭娱乐的重要入口，各大科技巨头纷纷快速进入智能音箱领域，利用补贴模式抢占市场，快速提升产品认知度。然而，在宣扬其便利生活的同时，他们并没有宣传其可能侵犯用户隐私。因此，用户在使用智能音箱之前缺乏对智能音箱本身特性和隐私风险的认识。此外，对该技术的简单化初始假设也决定了用户对隐私风险的防范程度较低。 N3：“和手机程序一样。它可以升级并变得更加智能。它几乎就像一个可以与人互动的小型机器人。” 采访还发现，虽然智能音箱通常在相对私密的家庭环境中使用，但基本上所有受访者的使用都是公开的，家人或客人可以随时与其交谈。这表明，不仅受访者个人对隐私环境缺乏脆弱感，其他家庭成员也同样缺乏脆弱感。 N6：“你必须在手机上安装一堆东西才能使用它，我不知道该怎么做。我儿子帮我用他的帐户设置了它，并告诉我只使用它。”

在有关“隐私意识”的回答中，受访者普遍意识到在使用智能音箱时“自己的隐私会（部分）丢失”，但他们往往对此持宽容态度。尽管 13 名受访者都经历过智能音箱意外启动的情况（即机器在没有唤醒词的情况下仍然启动），但大多数人（11 人）表示这种情况可以接受。 N5：“只是一个百块钱的东西，我不指望它有什么作用。技术难免会出错，关掉它吧。正常情况下没关系。” 除了3位受访者主动提到自己在使用过程中偶尔会犯下隐私风险的想法外，其他受访者都对自己的隐私环境表示乐观，认为对自己的伤害不会很大。 N10：“肯定会侵犯一点隐私，不过应该没问题，只是说说而已。我知道指示灯一亮机器就开始录音，这些录音公司肯定有。但是信息太多了， “需要多少空间？用来存储。” N2：“我只是一个普通人，我收集的信息没有什么价值。不会是我的账户会被泄露。” 另外，受访用户没有从头到尾阅读过智能音箱的隐私条款。 N9：“隐私政策太长，不够简洁清晰，而且有很多术语不知道是什么” “谈论。我觉得没有人会真正读它。” 超过一半的受访者主动将智能音箱与其他智能设备的隐私威胁进行比较，与手机等相比，指出智能音箱的隐私威胁更小：N4：“小爱同学（注：智能音箱）品牌名称）应该比手机上的某些软件有更少的隐私问题。也可能是我看到了太多关于手机软件泄露隐私的新闻，比如微信等等。

在“信息管理”能力方面，采访发现，主动掌控个人隐私数据的用户并不多。约半数受访者表示，在初次使用时会设置智能音箱的权限，但没有用户会定期更新或检查智能音箱获得的数据权限，例如检查智能音箱是否有新授权的第三方技能参考并获取自己的个人信息等。仅有4名受访者在应用软件中查看过自己与智能音箱的语音通话记录，但频率很小：过去一周没有用户查看过记录。在对个人隐私管理方式的态度和选择方面，约一半的受访者（7）明确表示愿意为了方便而放弃部分隐私。 N1：“如果它（智能音箱）能够变得越来越聪明，放弃一些隐私也是可以接受的。反正我放弃了很多，在一个没有隐私的社会待久了，我会习惯的。”它。” 对于未来智能音箱如何保护用户的隐私数据，受访者的期望主要集中在确保用户信息的匿名性以及确保语音交互中的敏感词不被上传。采访中，所有受访者均提到科技公司应对保护用户隐私环境承担首要责任。

采访还揭露了智能音箱使用时侵犯用户隐私的其他隐藏问题。首先，在采访过程中，虽然受访者家庭中儿童使用智能音箱已属常态，但受访者均未提及未成年儿童隐私泄露的风险以及使用过程中如何保护未成年儿童的个人信息。两位50岁以上的受访者不同程度地表达了对智能音箱的情感联系和依赖。鉴于智能语音交互技术对老年人和幼儿更有吸引力：老年人更习惯口头交流，使用其他交互方式（例如文字输入）的速度较慢。因此，与其他人工智能硬件相比，智能音箱的接受程度更高；由于幼儿还没有读写能力，只能用语音寻求帮助或玩智能音箱。因此，这两类人群与智能音箱的关系更为密切。然而，与普通用户相比，老人和儿童的个人信息更加敏感。此外，这两类人很少或根本没有主动设置隐私权限的能力。他们既没有脆弱性意识，也没有隐私意识和信息管理，他们面临的隐私环境是最脆弱的。

其次，受访者突出表达了隐私理念：只有放弃便利才能获得隐私，而牺牲个人隐私环境是获得便利的必要代价。由此可见，隐私与技术创新的二元对立是受访用户隐私认知体系中默认的。这一认知理念得到了中国科技巨头的印证：“中国人对隐私问题的敏感度相对较低。如果可以用隐私来换取便利、安全或效率，很多时候他们是愿意这样做的。” ⑬ 当用户和科技公司关注如何在隐私和便利之间做出选择时，就会忽略更核心、更关键的问题：应该制定什么样的数据收集和处理规则，才能为用户带来真正、持久的便利。

3、基于用户需求和体验的隐私保护设计

提高用户的隐私意识和管理个人隐私的能力一直被认为是解决隐私泄露和监管问题的最终解决方案。然而，个人的自主性和能力需要公共权力和技术的支持。这种支持绝不只是“把事情做好”，而应该是针对用户需求和具体情况的“溯源”。因此，无论是政策制定还是技术设计都应该遵循以用户为中心的原则。本文在梳理现有隐私保护政策和产品的基础上，就如何落实这一原则提出以下建议。

（一）考虑技术和产品特点，丰富用户信息处理权限

对于智能语音交互技术可能带来的隐私侵犯，国内外各大隐私保护法案均已做出回应。

2017年1月1日生效的《加州电子通信隐私法案》（简称法案）对数据保护提出了更高的要求——保护科技公司免受执法机构的干扰，确保用户的家庭智能录音设备不被泄露。容易被窃听； ⑭ 加州消费者隐私法案（CCPA）被认为是美国隐私法的里程碑，将于 2020 年生效，旨在改变企业处理数据的方式。包括谷歌在内的科技公司及其开发的产品将面临非常严格的隐私保护要求，例如要求他们披露所收集信息的类别、来源和目的。 ⑮相比美国通过不断丰富隐私权法律保护体系来应对新技术下的个人信息保护问题，欧盟主要通过特定人格权或一般人格权，即通过专门的个人信息保护法来保护隐私解决互联网时代的隐私问题。 ⑯欧盟2016年《通用数据保护法》（Data，GDPR）被公认为人工智能隐私保护的典型法律。《通用数据保护法》将个人数据的范围扩大到“与已识别或可识别的自然人有关的任何信息”，包括语音和面部识别技术、生物识别数据等。同时，该条例还规范了自动化的个人决策——作出（-），要求数据控制者获得数据主体的明确同意，并向数据主体提供自动化个人决策的算法逻辑、必要性和可能的后果。 ⑰