「AI」是2023年开年来最热门的话题,当人们为人工智能的崛起而感到兴奋之时,一场危机也随之而来。
在过去几个月时间里,我们见识到了「AI问答」、「AI制图」和「AI换脸」,每一项技术的曝光,都引起不小的讨论。在设想「AI」成为我们的得力助手之前,这这些工具已经率先成为了不法之徒的「好伙伴」。
全球最大的专业安全技术公司McAfee不久前公开了一项调查数据,在受到电话诈骗的人群中,有超过77%的受害者被「AI语音」所欺骗。这些受害者难以辨别来电中的声音是否来自家人、朋友,于是,在陌生来电的请求下,向不法分子打去一笔又一笔钱款。
利用「AI」,人们可以轻松地克隆任何人的声音,除了行骗之外,还可能出现在任何场合、任何地点,乃至于网友们普遍认为,「AI语音」迟早会出现在法庭上,成为伪证的主要来源。
这听起来十分吓人,对吧?
经常在网上冲浪的朋友,近期一定在不同的社交平台中看到利用「AI」创作的歌曲,例如:
「AI孙燕姿《发如雪》Cover From周杰伦」
「AI霉霉《反方向的钟》Cover From周杰伦」
「AI周杰伦《普通朋友》Cover From陶喆」
这些利用「AI」创作的歌曲,成为网友们热捧的二次创作。
(图源:bilibili)
事实上,「AI」创作歌曲和「AI语音」诈骗案,手法是一样的。创作者通过某些工具,将语音素材导入其中,以高性能显卡进行训练,不需要花费太多时间,即可轻易地获得一段“以假乱真”的音频内容。
用「AI」创作歌曲,还需要调整音调,使这些音频与原曲的节奏、音高保持一致。当然,在最新版本的创作工具中,已经可以做到“一键处理”,效果不会太差。而「AI语音」的难点在于处理情绪,除了调整仿真音频的节奏之外,还需要加上因不同情绪而产生的内容变化。
(图源:Veer)
在McAfee提到的两个真实案例中,一位母亲接到诈骗团伙拨来的绑架电话,在电话那头,她的女儿正声嘶力竭地呼救。不仅声音相似,就连情绪也十分到位,这正是受害者“上钩”的重要原因。
今年3月,一款名为“Mocking Bird”的AI工具诞生,据开发者介绍,它能在电话、视频中提取人声,以AI算法进行模拟匹配,最后根据分析出来的内容,“拼凑”你所需要的语音内容。经网友实测,这款工具确实可以制作出「AI语音」,但要求并不算低。
制作「AI语音」,需要足量样本,最好是清晰的人声,因此想要在一通电话就提取到足够的声音素材,还是比较艰难的。不过,利用「AI语音」诈骗,或许并不需要逼真的声音。
当每个人都能轻而易举地「克隆」他人的声音,这个世界不就乱套了吗?「AI语音」,真的做到人人都能随手创作了吗?
为了了解「AI语音」现阶段的真实情况,我采访了一位在该领域比较资深的创作者明治老师,听听他对「AI语音」的看法。
小雷:明治老师,看您在「AI」领域的研究颇为深入,您如何看待「AI语音」诈骗案?
明治:目前来说,光靠一通电话、一段视频就能提取出足够用于语言训练的素材,难度很大,从被报道出来的案例看,大多数被骗的用户在当时是处于紧张的状态中,因为不知道对方是不是真的,大脑自动匹配想象对象的声音,这也是有可能的。
小雷:也就是说,现阶段还不能单纯依靠「AI」制作足以以假乱真的语音吗?
明治:我们看到网络上有很多AI翻唱的内容,还有很多主播整活的语音音频,但你有没有发现,这些二创内容都有一个共同点——“样本足量”。就像孙燕姿这类歌手,她能不断被作为AI创作对象,正是因为她有足够的声音素材。即便有了足量的声音素材,硬件也有一些要求,消费级显卡最好是4090Ti,耗费的时间也不少。
小雷:假如说,只用一段音频作为素材去制作「AI语音」,能实现以假乱真吗?
明治:上面也说过了,声音样本不够,是很难做出所谓的「AI语音」内容的,就算强行制作,得到的成果质量也不会很高。“以假乱真”,其实有很多判定标准,例如童声,大多数童声听起来都是差不多的,尤其是在电话中,不太清晰的语音加上比较普遍的声线,混淆视听也不足为奇。
(图源:Veer)
从简单的访谈中我们可以了解到一些关于「AI」内容创作者的想法,总体来说,「AI语音」除了技术加持之外,更多地还是利用了人们对于未知事物的恐惧、慌张。而「AI」工具,只是让原本的电话诈骗提升了一点可信度。
但无论如何,「AI」确实正在对我们的安全造成威胁。
在相应的法规出台前,「AI」在任何领域里,都称不上是安全、可靠的工具。
不久前,一位全网拥有百万粉丝的女网红发布长文,痛斥「AI换脸」正在对她的名誉、精神造成伤害。文中,这名网红揭露,有不法分子通过这项技术,将其她的脸换在成人视频里,让她“成为”影片中的女主角。
(图源:Veer)
不仅是「AI换脸」,利用「AI」工具,用户可以随时输入相应的关键词,生成任何他们想要的内容,「18禁图片」、「名人」或是任何「没有发生的事情」,精制的图片难辨真伪,影响了用户们的判断力。
从前,“有图有真相”,是我们判断事情真伪的主要证据,再后来,配合动态视频、真人语音,衍生出“视频不能P”的判定标准。在「AI」蓬勃发展的今天,图片可以自制、真人可以被移花接木,甚至是语音,也能被「AI」克隆。尽管「AI语音」并不能完全被认定位电话诈骗成功的主因,但它提供的帮助,是被安全机构所认定为「具有风险」的。
目前,我国已经出台《网络音视频信息服务管理规定》,对于“非真实音视频信息”,应当予以标识,禁止利用大数据深度学习制作、发布虚拟新闻。而这仅仅只是一个开始,想要给「AI」戴上镣铐,任重道远。
McAfee出具的报告中提到,光是2022年这一年时间里,涉及「AI语音」诈骗的金额就达到了26亿美元,约合人民币180亿元。
面对「AI语音」诈骗,我们该如何防范呢?
(图源:Veer)
如前面提到的,「AI语音」的生成需要大量克隆对象的声音样本,减少在未知风险的社交平台中发送带有自己真实声音的视频、音频内容,其实是最保险的方案。另外,「AI语音」诈骗成功率高达77%,与人们的恐惧心理离不开关系,在没法确认对方的真实身份前,尽量不要接受对方的要求,尤其是转账。
无论如何,现阶段的「AI语音」并没有如同网上流传的那样神乎其神,我们普通网民也没必要过于着急自己的声音被克隆,在遇到有可能是诈骗的情况,先保持冷静,整理情绪,理清思路,才能更好地应对。