防止“机器学习最坏情况”的竞赛

美食作者 / 花爷 / 2025-07-10 09:09

　　　　戴夫·威尔纳(Dave Willner)对互联网上最糟糕的东西的演变有了第一手的了解。　　他于2008年开始在Facebook工作，当时社

　　戴夫·威尔纳(Dave Willner)对互联网上最糟糕的东西的演变有了第一手的了解。

　　他于2008年开始在Facebook工作，当时社交媒体公司还在不断制定自己的规则。十多年前，作为公司内容政策负责人，威尔纳撰写了Facebook的第一个官方社区标准，将他所说的一份非正式的一页清单(基本上可以概括为禁止“希特勒和裸男”)变成了现在的一份庞大的目录，上面写满了诽谤、犯罪和其他怪诞行为，在meta的所有平台上都被禁止。

　　因此，去年，当旧金山人工智能实验室OpenAI准备推出Dall-E时，该公司任命威尔纳担任信任与安全主管。Dall-E是一款工具，任何人都可以通过几句话描述图像，立即创建图像。最初，这意味着要筛选所有的图像，并提示戴尔- e的过滤器标记为潜在的违规行为，并找出防止潜在违规者成功的方法。

　　上任没多久，威尔纳就发现自己在考虑一个熟悉的威胁。

　　就像儿童侵犯者多年来利用Facebook和其他主要技术平台传播儿童性虐待照片一样，他们现在正试图利用戴尔- e创建全新的照片。“人们试图这么做，我并不感到惊讶，”威尔纳说。“但要明确的是，OpenAI的人也不这么认为。”

　　对于最近所有关于生成人工智能存在的假想风险的讨论，专家们表示，这一迫在眉睫的威胁——儿童掠食者已经在使用新的人工智能工具——值得整个行业的全力关注。

　　斯坦福互联网观测站(Stanford Internet Observatory)和索恩(Thorn)最近发表的一篇论文中，研究人员发现，自去年8月以来，在暗网上流传的人工智能生成的逼真儿童性虐待材料的数量出现了小幅但有意义的上升。索恩是一家打击网上儿童性虐待传播的非营利组织。

　　根据索恩的研究人员的说法，这在很大程度上体现在图像上，这些图像使用了真实受害者的肖像，但将他们以新的姿势可视化，遭受新的和日益严重的性暴力形式。研究人员发现，这些图像中的大多数不是由Dall-E生成的，而是由开发和发布的开源工具生成的，这些工具几乎没有适当的保护。

　　在他们的论文中，研究人员报告说，在一个已知掠夺性社区的样本中，只有不到1%的儿童性虐待材料似乎是人工智能生成的逼真图像。但考虑到这些生成式人工智能工具的发展速度极快，研究人员预测，这一数字只会增长。

　　斯坦福互联网天文台(Stanford Internet Observatory)的首席技术专家戴维·蒂尔(David Thiel)说，“在一年内，我们将在这个领域遇到非常严重的问题。”他与索恩的数据科学主管丽贝卡·波特诺夫(Rebecca Portnoff)博士和索恩的研究主管梅丽莎·斯特罗贝尔(Melissa Stroebel)共同撰写了这篇论文。“这绝对是我能想到的机器学习最糟糕的情况。”

　　波特诺夫博士十多年来一直致力于机器学习和儿童安全方面的研究。

　　对她来说，像OpenAI这样的公司已经在考虑这个问题，这说明这个领域至少比社交媒体巨头早期的学习曲线更快。

　　“今天的姿势不同了，”波特诺夫博士说。

　　不过，她说，“如果我能让时钟倒转，那将是一年前。”

　　2003年，国会通过了一项禁止“电脑生成的儿童色情”的法律——这是国会防范未来的一个罕见例子。但在当时，制作这样的图像既昂贵又技术复杂。

　　制作这些图像的成本和复杂性一直在稳步下降，但去年8月，由位于伦敦的机器学习公司Stability AI开发的免费开源文本到图像生成器Stable Diffusion公开亮相，情况发生了变化。

　　在其最早的迭代中，Stable Diffusion对其模型所能产生的图像类型几乎没有限制，包括包含裸体的图像。“我们信任人们，我们信任社区，”该公司首席执行官埃马德·莫斯塔克(Emad Mostaque)去年秋天告诉《纽约时报》。

　　在一份声明中，稳定人工智能的通讯主管Motez Bishara表示，该公司禁止将其技术滥用于“非法或不道德”的目的，包括创建儿童性虐待材料。“我们强烈支持执法部门打击那些将我们的产品滥用于非法或邪恶目的的人，”比沙拉说。

　　由于该模型是开源的，开发者可以在自己的电脑上下载和修改代码，并使用它来生成真实的成人色情内容。在他们的论文中，索恩大学和斯坦福大学互联网观测站的研究人员发现，捕食者已经调整了这些模型，以便他们也能够创造出儿童的色情图像。研究人员在报告中展示了一种净化版本，他们修改了一张人工智能生成的女性图像，使其看起来像奥黛丽·赫本小时候的图像。

　　此后，稳定人工智能发布了过滤器，试图屏蔽该公司所谓的“不安全和不适当的内容”。新版本的技术使用的数据集排除了被认为“不适合工作”的内容。但是，据蒂尔说，人们仍在使用旧的模型来制作新模型禁止的图像。

　　与Stable Diffusion不同，Dall-E不是开源的，只能通过OpenAI自己的接口访问。该模式还制定了更多的保障措施，以禁止创建甚至合法的成人裸体图像。“模特们自己也倾向于拒绝与你进行性对话，”威尔纳说。“我们这样做主要是出于对一些更阴暗的性话题的谨慎。”

　　该公司还在早期实施了护栏，以防止人们在他们的戴尔- e提示中使用某些单词或短语。但威尔纳先生说，捕食者仍然试图通过研究人员所说的“视觉同义词”来欺骗系统——在描述他们想要产生的图像时，用创造性的术语来逃避护栏。

　　“如果去掉模型对血液的认知，它仍然知道水是什么样子，知道红色是什么颜色，”威尔纳说。“色情内容也存在这个问题。”

　　Thorn有一个名为Safer的工具，它可以扫描儿童虐待的图像，并帮助公司向国家失踪和受虐儿童中心报告，该中心管理着一个联邦政府指定的可疑儿童性虐待材料的信息交换中心。OpenAI使用Safer扫描人们上传到Dall-E编辑工具的内容。这对于捕捉儿童的真实图像很有用，但威尔纳说，即使是最复杂的自动化工具，也很难准确识别人工智能生成的图像。

　　这是儿童安全专家日益关注的一个问题:人工智能不仅会被用来创造真实儿童的新形象，还会被用来制作不存在的儿童的露骨形象。

　　这些内容本身就是非法的，需要报告。但这种可能性也引发了人们的担忧，即联邦信息交换中心可能会进一步被虚假图像淹没，从而使识别真正受害者的努力复杂化。仅去年一年，该中心的网络热线就收到了大约3200万份举报。

　　“如果我们开始收到报告，我们能知道吗?”他们会被标记或能够与真实儿童的图像区分开来吗?国家失踪和受剥削儿童中心的总法律顾问yota Souras说。

　　至少其中一些答案不仅需要来自OpenAI和Stability AI等人工智能公司，还需要来自运行即时通讯应用程序或社交媒体平台的公司，比如meta，它是CyberTipline的首席记者。

　　去年，仅来自Facebook、WhatsApp和Instagram的提示就超过2700万条。科技公司已经在使用一个由行业联盟“科技联盟”(tech Coalition)开发的分类系统，根据受害者的表面年龄和所描述行为的性质，对涉嫌儿童性虐待的材料进行分类。在他们的论文中，索恩大学和斯坦福大学的研究人员认为，这些分类应该扩大，以反映图像是否是计算机生成的。

　　meta的全球安全主管安提戈涅·戴维斯(Antigone Davis)在给《纽约时报》的一份声明中说，“我们正在努力在处理人工智能生成的内容时，做到有目的、有证据，比如理解什么时候包含识别信息最有益，以及应该如何传达这些信息。”戴维斯女士说，该公司将与国家失踪和受虐儿童中心合作，以确定最佳的前进方向。

　　研究人员认为，除了平台的责任之外，人工智能公司自己还可以做更多的事情。具体来说，他们可以训练他们的模型不创建儿童裸体的图像，并清楚地识别由人工智能生成的图像，因为它们在互联网上传播。这将意味着在这些图像中添加水印，这比Stability AI或OpenAI已经实现的水印更难去除。

　　在立法者寻求对人工智能进行监管之际，专家们认为，强制要求某种形式的水印或来源追踪，不仅是打击儿童性虐待材料的关键，也是打击错误信息的关键。

　　加州大学伯克利分校(University of California, Berkeley)的数字取证教授哈尼法里德(Hany Farid)说，“在这里，你只能做到最小公分母，这就是为什么你需要一个监管制度。”

　　法里德教授负责开发PhotoDNA，这是微软于2009年推出的一款工具，现在许多科技公司都在使用它来自动查找和屏蔽已知的儿童性虐待图像。法里德说，科技巨头在这项技术被开发出来后，实施起来太慢，导致儿童性虐待材料的祸害公开恶化了多年。他目前正在与多家科技公司合作，为追踪人工智能生成的图像创建一种新的技术标准。Stability AI是计划实施该标准的公司之一。

　　另一个悬而未决的问题是，法院系统将如何处理针对人工智能生成的儿童性虐待材料创作者的案件，以及人工智能公司将承担什么样的责任。尽管反对“电脑生成的儿童色情”的法律已经存在了20年，但它从未在法庭上得到过检验。2002年，一项试图禁止当时被称为虚拟儿童色情的法律因侵犯言论而被最高法院驳回。

　　欧盟委员会、白宫和美国参议院司法委员会的成员已经听取了斯坦福大学和索恩的调查结果。蒂尔说，在技术进一步发展到包括全动态视频等内容之前，公司和立法者找到这些问题的答案是至关重要的。“我们必须在那之前拿到它，”蒂尔说。

　　索恩公司的首席执行官朱莉·科尔杜瓦(Julie Cordua)说，研究人员的发现应该被视为一个警告，同时也是一个机会。科尔杜瓦认为，与那些意识到自己的平台为儿童捕食者提供了机会的社交媒体巨头不同，我们仍有时间防止人工智能引发的儿童虐待问题失控。

　　“我们知道这些公司应该做什么，”科尔杜瓦说。“我们只需要这么做。”

　　这篇文章的另一个版本出现在纽约版第5页BU部分，标题是:在人工智能中，阻止儿童捕食者的竞赛。订购转载|今日报|订阅

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。

最新文章

真人秀明星约瑟夫·杜加在佛罗里达州儿童性侵案中缴纳60万美元保释金

麦当劳因麦辣鸡排堡面临诉讼，背后原因令人震惊！

纽约大学教授劝告Z世代：删掉手机里的“老虎机应用”，这是他给出的最佳限屏建议

得州起诉特朗普政府，这些内幕你必须了解！

科库阿线交通摄像头会抓拍年检和注册过期吗？车主必看！

热文导读

别再为SSC挑选浓度了学生和老师准备好了吗？｜商业标准

伯明翰一名女子被控在杰斐逊县的废弃房屋内杀害51岁男子