

一项研究表明,人类无法准确检测超过四分之一的深度假语音样本。
这项发表在《公共科学图书馆·综合》(PLOS ONE)上的研究首次检验了人类区分非英语语言人工生成语音的能力。
Deepfakes是指模仿真人声音或外表的合成媒体,属于生成式人工智能领域。
这种形式的人工智能利用机器学习来教授算法数据集的模式和特征-例如真人的视频或音频记录-使其能够复制原始声音或视觉效果。
曾经需要成千上万的声音样本,现在先进的预训练算法只需要三秒钟的音频片段就可以重现一个人的声音。
这些开源算法不仅易于获取,而且易于训练,即使对于专业知识有限的人来说,也可能在几天内完成。
科技公司苹果最近为其iPhone和iPad设备推出了一项引人注目的软件功能,该功能可以通过15分钟的音频克隆用户的声音。
伦敦大学学院的研究人员通过使用文本到语音的算法创建了英语和普通话的深度假语音样本,进行了他们的研究。
该算法在两个公共数据集上进行了训练,并用于在每种语言中生成50个深度假语音样本。
这些样本故意与用于训练算法的样本不同,以避免简单地复制原始输入。
为了评估人类辨别真假的能力,这些人工生成的样本与真实样本一起播放,共有529名参与者。
参与者只能在73%的情况下准确识别出虚假语音,在接受了如何识别深度虚假语音的培训后,这一数字仅略有提高。
“我们的研究结果证实,人类无法可靠地检测到深度虚假语音,无论他们是否接受过帮助他们识别人工内容的培训,”该研究的主要作者、伦敦大学学院计算机科学学院的金伯利·麦说。
“考虑到我们使用的样本是用相对较旧的算法创建的,这就引出了一个问题,即人类在现在和未来使用更先进的技术检测深度虚假语音时是否会表现得更差。”
研究人员现在的目标是开发高级的自动语音探测器,以对抗人工生成的音频和图像带来的威胁。
虽然生成式人工智能音频技术可以带来好处,例如提高语言障碍人士或因疾病可能失声的人的可及性,但人们越来越担心,犯罪分子和国家可能会滥用该技术,对人民和社会造成伤害。
“人工智能探测器是检测语音深度造假的常用方法。在培训期间,他们看到了很多真实和虚假的例子,”麦女士告诉国家报。
“通过这个过程,探测器学习了使合成语音与真实示例区分开来的模式。
“我们的研究结果表明,我们不应该过于依赖当前的人工智能探测器。
“尽管它们擅长识别与训练期间看到的样本相似的深度假语音示例,但如果说话者身份相同,当测试音频发生变化时,它们的表现可能会下降,例如,说话者身份不同,或者环境更嘈杂。”
2019年的一个典型例子是,一家英国能源公司的首席执行官被骗,利用对其上司声音的深度伪造录音,将数十万英镑转移给了一家欺诈性供应商。
该研究的资深作者、伦敦大学学院计算机科学系的刘易斯·格里芬说:“随着生成式人工智能技术变得越来越复杂,其中许多工具都是公开可用的,我们即将看到许多好处和风险。”
“虽然政府和组织制定战略来解决这些工具的滥用问题至关重要,但我们也应该承认即将出现的积极可能性。”
在开发和部署深度假语音探测器时,Mai表示:“因为深度假语音探测器对音频变化很敏感,所以在不同的情况下对它们进行评估很重要,例如,不同的说话者、更嘈杂的环境或不同的口音,以尽量减少误报和误报。”