深度伪造检测产业崛起:企业严防欺诈,个人应对挑战几何?
深度伪造检测产业崛起企业严防欺诈个人应对挑战几何我不确定父母是否会注意到电话那头的声音并非我本人——确切地说那在某种程度上是我的声音却并非真正的我。电话那头的声音说了声“你好”询问我父亲近况如何见他没有及时回应便又问了一遍。“这是什么呀加比”他几乎立刻就察觉到不对劲了。我解释说想骗他显然没成功。“是没成功”他说“听起来像机器人。”这并非一次完美的实验。当时父母在国外导致通话质量很差。他们正在和朋友共进午餐而这个声音无法处理串音或音频延迟问题——它会试图填补沉默的间隙。最重要的是这个声音听起来像人类但并不像我。这个声音是由深度伪造检测公司 Reality Defender 生成的。媒体造假问题并非新鲜事但消费级 AI 工具的出现让伪造音频、视频和图像变得几乎毫无阻碍。近年来涌现出许多致力于打击此类造假的公司。截至 2023 年Reality Defender、Pindrop 和 GetReal 等公司都是快速发展的深度伪造检测小产业的一部分该产业估值约 55 亿美元。这些初创公司利用机器学习来识别经过处理的媒体内容。要打击深度伪造就必须先能够制造它们。“深度伪造”deepfake指的是利用“深度”学习技术生成的特定类型的伪造媒体。除制作方式外所有深度伪造内容并没有一个共同特征。深度伪造被用于欺诈、骚扰和制作表情包等。像 Grok AI 这样的工具导致非自愿的性深度伪造内容泛滥其中甚至包括儿童性虐待材料。诈骗分子会克隆他人的声音打电话给其亲属让这个声音声称自己被绑架索要赎金。在 2024 年的选举期间一名政治策略师和一名魔术师联手制作了前总统乔·拜登的深度伪造视频用于劝阻新罕布什尔州登记在册的民主党人不要参加该州的初选。参议院外交关系委员会主席曾接到一个使用 AI 冒充乌克兰官员的 Zoom 电话。根据一项研究在企业层面深度伪造欺诈如今已呈“产业化”态势。深度伪造检测行业主要是为了解决其中一个问题企业欺诈问题。Reality Defender 实际上是在训练 AI 来对抗 AI。该公司首席技术官亚历克斯·利斯尔Alex Lisle表示公司使用“基于推理的模型”来检测深度伪造。“我们的基础模型采用了一种被称为‘学生/教师范式’的方法。我们选取大量真实的内容说‘这些是真实的’再选取大量伪造的内容说‘这些是伪造的’。”为生成伪造的我的声音我们花了一些时间对其进行微调调整声音的连贯性、稳定性和语调让它听起来更像真实的我。但我们能做的有限。公开可获取的我讲西班牙语我与父母交流使用的语言的素材很少除了 2021 年的一次播客采访外大部分都无法使用因为背景中有音乐。不过凭借九秒的音频和从多年帖子中收集的数据我们还是拼凑出一个还算有说服力的 AI 语音它能够和我的父母进行对话尽管对话显得有些生硬。我们用于我哥哥的英语模型效果更好因为我们有更多的训练数据但即便如此也还不够有说服力。但家人是最难骗过的。“他们知道你的声音是什么样的”Reality Defender 的公关主管斯科特·施泰因哈特Scott Steinhardt说。施泰因哈特经我同意制作了这个深度伪造语音并不断调整直到它或多或少听起来像我。它可能骗不过我的家人但对于同事或银行等企业机构来说或许足够了。为达到效果这些工具必须能够快速发挥作用。生成式 AI 的速度相当慢。我们用来给父母打电话的模型为追求速度牺牲了质量。为让语音快速回应我们不得不接受整体质量的下降。文本转语音的效果要好得多但生成所需的时间更长。当我们让这个语音朗读《等待戈多》中幸运儿的独白时它听起来几乎和我一模一样。“作为个人不被深度伪造是相当有挑战性的”Pindrop 的首席产品官尼古拉斯·霍兰德Nicholas Holland说“我认为‘如何保护我的个人身份’这个挑战目前全世界还没有找到解决办法。我觉得‘我的机构如何知道是我本人’这个问题不同的机构正在实施不同的安全措施。”这也是一个资源问题。我没有资金聘请深度伪造检测公司来筛选我的电话但我的银行有——而且从绝对金额而非相对金额来看银行面临的损失更大。2024 年的一项调查发现企业每次因深度伪造事件平均损失 45 万美元有多家公司在单次欺诈交易中损失超过 100 万美元。其中一些案例是诈骗分子冒充公司高管打电话给下属要求他们将大笔资金转到指定账户。在我和霍兰德进行 Zoom 通话前我收到一条弹出通知他们向我保证我的面部、声音和 IP 地址信息保留时间不会超过 90 天。霍兰德说如今公司收到大量虚假求职申请——具有讽刺意味的是就连 Pindrop 也遇到这种情况。“我们看到各种情况。有人确实在工作可能在 IT 部门”霍兰德说“我们有客户招聘了一个人这个人又推荐了其他人。他们招聘了另外两个人结果发现是同一个人用三种不同的声音、三张不同的面孔和三个不同的 Slack 身份应聘了三次。”通常情况下这些并非完全由 AI 生成的视频形象而是人们利用深度伪造技术改变自己的特征就像戴了一个数字面具。过去有一种检测方法要求对方在脸前伸出三根手指。“现在这招完全不管用了。AI 模型非常强大它们完全可以生成手你可以把生成的手放在脸前”霍兰德说“现在用肉眼几乎无法察觉。”Reality Defender 的利斯尔说随着技术的进步攻击变得不那么费力了。过去诈骗分子只冒充单个高管现在他们的目标是公司各个层级的员工。他讲了一起最近发生在一家未透露名称的上市公司的攻击事件。在这起事件中诈骗分子登录领英LinkedIn获取了所有在职员工的姓名然后从 TikTok 和 Facebook 上收集信息创建了一个“信息池”并为每个人获取了声纹。他们将这些信息和声纹输入大语言模型LLM构建了一个上下文窗口和地图然后“全面撒网”给公司各个层级的员工打电话。“在网络安全领域我们会提到‘信任边界’”利斯尔说“深度伪造的问题在于一直存在一种隐含的信任边界即眼见为实、耳听为实。在过去的约 4 万年里我们一直相信自己的耳朵和眼睛但现在不行了。有很多我们从未考虑过的信任边界黑客正在以各种巧妙的方式加以利用。”目前这类软件仅针对大公司——它们有需求、面临高风险也有足够的资金购买。但普通民众没有深度伪造检测软件短期内也不会有。正如霍兰德所说大规模推广的最大挑战在于认知因为“很多消费者没有意识到这种威胁所以不知道如何寻找解决方案——关键在于服务消费者的企业”。Pindrop 目前还没有面向消费者的产品但并未排除未来开发的可能性。霍兰德表示挑战在于“让这些系统足够快速、准确和可靠以便人们在日常生活中能够依赖它们”。Reality Defender 有不同的看法。施泰因哈特说面向消费者的产品会让人们处于“不公平且参差不齐的竞争环境”。“可以把它想象成杀毒软件过去这是个人会担心或者更糟根本不担心的事情现在我们的浏览器、电子邮件提供商、互联网服务提供商等都会在文件进入我们的电脑之前扫描是否存在恶意软件”施泰因哈特说“这就是我们应对深度伪造检测的方式。”我的深度伪造语音没能骗过我的家人但我其实并没有真正对它进行严格测试。多年来全国各地的执法机构都曾警告过深度伪造绑架诈骗家长会接到一个听起来非常逼真的声音求救然后“绑架者”会索要赎金。即使声音不是完全逼真但哭声和尖叫声会让人信以为真。我不忍心对父母这么做哪怕这是假的。我也曾短暂考虑过其他诈骗方式我可以打电话给我的银行或者我的健康保险公司但想到可能会被自己的账户锁定或者真的实施欺诈行为我就对这个实验失去了兴趣。于是我打给了我的哥哥。“哦不”声音一打招呼他就说道。他也没被骗到。