先锋网络 > 科技 > 正文
2019-03-30 13:22 来源:IT时报

除了被“偷听” 声音还可以“出卖”你更多

来源:The Verge

原作者:Angela Chen

编译:李蕴坤

此前,《IT时报》进行了一系列关于饿了么、美团等App可能存在“偷听”现象的报道。对于电商类、资讯类、音乐类等App来说,“监听”得来的隐私信息或许更有助于实现为用户精准推送。不同于上述的“隔屏有耳”,语音分析的研究重点并不在于一个人说了什么,而在于他们是怎么说的:语调、语速、重音和停顿。其中的诀窍就是机器学习。

Angela Chen的这篇报道告诉我们,声音是高度私密的信息,难以造假,里面潜藏着关于人类心理健康和行为的奥秘。

以下为编译全文:

又到还款日了,这个月的银行贷款不会拖吧?

这里还有更贵的产品,他会买吗?

招聘结束了,这个面试者是不是最佳人选呢?

不用你绞尽脑汁,Voicesense都会告诉你答案。这家来自以色列的预测分析方案供应商对客户作出了一个有趣的承诺:如果将一个人的声音交给我们,我们就能预测出他将会做什么。而他们判定个人行为的方法就是对通话进行实时语音分析。

然而,这并不是唯一一家正在借助语音“解剖”用户的公司。最近几年,研究人士和初创企业都在积极挖掘可以从声音里提炼的秘密。譬如亚马逊的高人气家庭语音助手Alexa,消费者都感到对话越来越轻松。英国调研机构IdTechEx的报告指出,至2029年,语音技术有望开拓出155亿美元的巨大市场。

“每个人都会说话,并且有的是设备来捕捉你说过的话,无论是通过你的手机,还是Alexa与Google Home这样的智能家居设备。”麻省理工学院(MIT)麦戈文人脑研究院首席研究科学家Satrajit Ghosh表示,他本人还对语音分析在心理健康上的应用很感兴趣,“声音无所不在,像一道水流横跨生活。”

但是,只是“无所不在”而已吗?

声音是高度私密的信息,而且难以造假。用户在使用语音日志App(如Maslo)的过程中,并不会避讳关于自己的隐私话题。现在,虽然许多人已经意识到推特和Instagram上的推文将会受到监控,但很少有人觉察到声音也是另一种形式的隐私数据,会将他们“出卖”。

(场景)

小白:“这首歌叫什么名字?”

小黑:“爱的供养,再问自杀。”

单凭这种对话方式,就知道所谓的自杀不过是一句调侃。倘若真的有类似的蛛丝马迹,恐怕只有算法能加以准确地“画像”。

打个比方,选取两组人群作为样本,分别划作“焦虑”人群和“非焦虑”人群,再由算法来对他们的语音数据进行分析。算法能够抓取到言谈之间的微妙信号,进而指出这个人是来自“焦虑”组还是“非焦虑”组。即使将来换成其他类型的样本,算法也能依样画葫芦地作出分类。

当然,不排除有些时候,算法得出的分析结果可能是“反直觉”的,卡耐基梅隆大学计算机科学家Louis-Philippe Morency如是说,他本人发起的SimSensei的项目就有靠声音来探测抑郁症的功效。譬如在一些早期研究中,Morency的团队就致力于探索语音特征与二次自杀倾向的关联性。他们发现恰恰是那些说话更轻柔,声音像呼吸一样微弱的人,比紧张、愤怒的人更有可能尝试二次自杀。不过,这还只是初级阶段的研究,往后的关联性会更加复杂。

研究员已经建立了用声音来甄别帕金森综合征(PD)与创伤后压力心理障碍症(PTSD,又名重大打击后遗症)的算法。对大多数人来说,语音分析技术最大的前景就在于和心理健康之间的交集,并且有希望帮助到那些有“故态复萌”之险的人。

在医院里,存在心理问题的病人一般会活在密切的监视之下,但Digital Behavioral Health(数字行为健康)项目的发起人David Ahern指出:“许多和心理问题有关的病症都是在日常生活中爆发的。”因为离开监控后,日常生活给人带来的折磨更缓慢且微妙。Ahern认为,有过抑郁史的人们回到日常环境后,通常意识不到自己有再度抑郁的可能。

“等病人被送进急救室,那程度就不亚于小马冲出马厩了。”Ahern评价道,“从概念上讲,(语音分析)相当于在口袋里装上传感器,能够监测与病症相关的人类行为,可以看作一种早期预警系统。”

此外,Ahern还是心理健康监测系统CompanionMx临床试验的首席调查员,病人可在其App上录制语音日记。项目将结合呼叫记录与位置等元数据对日记进行分析,再根据4项因素为病人打分——低落感、缺乏兴趣感、回避感和疲惫感。这些信息会在受到联邦隐私法HIPAA保护的前提下被分享给病人,同时也呈现在医生的管理控制台中,作为关注病人行为之用。

距今七年来,CompanionMx已经在超过1500位病人身上测试过上述产品,其首席执行官Sub Datta表示。项目试点期间,95%的病人每周至少使用过一次语音日记。医生则至少每天登录一次管理控制台。这些都是非常有前景的数据,尽管Ahern仍在质疑哪些部分的数据可以提供最大的帮助。是App本身?病患反馈?医生建议?还是两者综合考量?

语音分析的“梦想岛”:银行、保险、投资、HR

“我们能提供健康行为、工作行为和娱乐行为的预测。” 跳出医疗圈,Voicesense在商业场景上也有远大理想。大多数情况下,大家对语音分析的商用联想还停留在改善呼叫中心代替客服工作的阶段,“如今我们能够生产更完整的个人档案,”CEO Yoav Degani表示,他可不止将技术寄希望于讨好那些难搞定的顾客——贷款违约预测、保险理赔预测、投资风格预测、求职者评分体系、员工离职预测。

“我们的判断并非100%精准,但是在大部分情况下,得出的结果都是正确的。”Degani表示,“我们能提供健康行为、工作行为、娱乐行为等等方面的预测。”

举个例子,在Voicesense与一家大型欧洲银行的测试案例中,银行提供了上千位债务人的语音样本(注:银行已知晓其中哪些人有违约记录)。Voicesense针对这些样本运行了自己的算法,并将债务人划归为低、中、高风险三类。根据某次分析得出的结果,低风险人群中的逾期比例仅占6%,而高风险人群的违约人数则高达27%。同理,当Voicesense为该银行预测员工的离职意愿时,算法判定的低风险人群中有13%选择了离职,对比之下,高风险人群的离职率显示为39%。

如果算法“打脸”了,会怎么样?

然而,在麻省理工学院科学家Ghosh眼中,以上案例不过是“看似合理”罢了,“语音特征可能表现出很大的变化,除非你采集了足够多的样本,所以我们拒绝下结论。”

每秒钟测试超过200个参数,并可应用于多门语言的精确分析,包括富有音调变化的普通话,这就是Degani对自家语音处理算法满怀信心的理由。虽然项目本身仍处于试点阶段,但Voicesense正在与多家大型银行以及投资者进行洽谈,Degani说道:“人人都为语音分析的潜力着迷。”

可惜,这项技术潜力似乎很难说服犯罪学领域的专家。德雷塞尔大学犯罪学教授Robert D'Ovidio认为,客服是一回事,他本人比较关心技术被滥用的问题。试想一下,假如抵押贷款公司利用声音来判断用户是否有罹患心脏病的风险,如果有,那就意味着这些人可能不久于人世,应该被归为高危客户。

D'Ovidio补充道:“如果有机构抱着以上目的收集语音信息,我们就需要相关的立法来保护用户。”

事实上,美国的部分州已经出台了类似的保护法规,华盛顿大学法学院教授Ryan Calo指出。因为声音被视作一项生物计量指标,包括伊利诺斯州在内一些地区可通过法律保障生物计量的安全性。至于机器学习技术是被用作语音分析,还是看看个人履历,期间是否会有失偏颇,引发一些敏感问题,如种族歧视、性别歧视等,这些仍然需要因地制宜地去考量,Calo表示。

但人们对于机器学习在人脸识别和声音识别上的应用显然是感到不满的,一方面是因为那些内容过于隐私。况且由于反歧视法的存在,围绕语音分析的许多话题都会被放大,发展到这些信息能否被取用,甚至会怎样产生歧视这样的程度。然而就目前的社会而言,人们还不足以与这些问题抗衡。

“希望将来随着技术的进步,人们可以意识到这些只是数据,不管它们是什么样的形式,其实都和表格里的数字或采集来的声纹没什么两样。” D’Ovidio认为,当人们的语音信息被使用时,至少本人应该有被告知的权利。“要是算法出错了,又会带来什么后果呢?”