

当我第一次研究是否有可能反击人工智能产生的抄袭,以及它是如何工作的,那是在2023年1月,世界对生成人工智能的认识刚刚爆发几个月。
本文是2023年1月那篇文章的更新版本。当我第一次测试GPT检测器时,我使用了三个:GPT-2输出检测器(这是一个与我们之前发布的不同的URL), Writer.com AI内容检测器和大规模AI内容检测器(现在显然被称为BrandWell)。
GPT-2输出检测器的最佳结果是66%的正确率。我在2023年10月做了另一个测试,并增加了三个:GPTZero, ZeroGPT(是的,它们是不同的)和Writefull的GPT检测器。然后,在2024年夏天,我添加了QuillBot和一个商业服务,独创性。嗯,混合一下。这一次,我还将添加Grammarly的beta检查器。
在2023年10月,我从我们的测试套件中删除了Writer.com AI Content Detector,因为它在2023年1月失败了,10月又失败了,2024年夏天又失败了。但是,它现在似乎可以工作了,所以我将它包含在测试套件中。下面是该公司的评论,这是他们的团队在原文于1月份发表后发给我的。
我重新运行了所有的测试,看看探测器今天的表现如何。虽然我取得了两次巨大的成功,但最大的收获似乎是一个AI检查器与另一个AI检查器的结果是多么不一致。
在我继续之前,我们应该讨论一下剽窃以及它与我们问题的关系。《韦氏词典》对“剽窃”的定义是:“窃取(他人的想法或言语)并冒充自己的;使用(他人作品)而不注明出处。”
这个定义很适合人工智能创造的内容。虽然使用人工智能工具(如Notion AI或ChatGPT)的人并不是在窃取内容,但如果这个人不认为这些词来自人工智能,并声称这些词是他们自己的,那么这仍然符合字典对剽窃的定义。
在这篇实验文章中,我请求ChatGPT提供帮助。我的话都是粗体字。人工智能的文字是斜体的。在每个ai生成的部分之后,我将展示检测器的结果。在本文的最后,我们将查看检测器的总体性能。
以下是我自己编写的上述文本的测试结果:
GPT-2输出检测器:99.98%的实际Writer.com: 95%是人工生成的内容BrandWell AI公司ntent检测:像人一样通过GPTZero: 98%是人类ZeroGPT:22% AI GPT你的文字最有可能是人类写的写式GPT检测器:1%可能来自GPT-3、GPT-4或ChatGPTOriginality.ai:我们是99%的公司。确信文本是原创的QuillBot: 42%的文本可能是人工智能生成的语法:我们没有检测到常见的AI文本模式。你document似乎并没有消失包含人工智能生成的文本。
人工内容:7 / 9(77%)正确上次:5 / 7(71%)正确
在我们继续之前,让我们讨论一下我所认为的“正确”分析。如果分数是数字,任何超过80%的内容都将被视为正确的分析,这是慷慨的。如果分数上有摘要,我会看一下摘要然后做出判断。
有了这些,让我们继续深入研究。
解释为什么当涉及到剽窃时,ChatGPT对教师和编辑来说是一个真正的问题
ChatGPT是OpenAI开发的GPT(生成预训练转换器)语言模型的一个变体。它的目的是通过预测给定输入序列中的下一个单词或短语来生成类似人类的文本。虽然ChatGPT可以是生成文本和响应提示的有用工具,但当涉及到剽窃时,它也可能成为教师和编辑的一个问题。
ChatGPT对教师和编辑来说是个问题的主要原因之一是,它可以生成与真正的人类作家非常相似的文本。这意味着学生或其他个人可能会使用ChatGPT生成文本,然后将其作为自己的作品提交,从而构成抄袭。
对于教师和编辑来说,检测一段给定的文本是由ChatGPT生成的还是由人类编写的可能非常困难,因为生成的文本可能不包含任何明显的错误或差异,从而暴露其人为来源。这使得教师和编辑很难识别和防止抄袭,因为他们可能无法分辨一段给定的文本是原创的还是从其他来源复制的。
总的来说,ChatGPT和其他类似的语言模型对于教师和编辑来说可能是一个问题,因为它们可以生成难以与人类编写的文本区分的文本,使学生和其他个人更容易在不被发现的情况下进行剽窃。
GPT-2输出检测器:99.69%的实际Writer.com:77%人为内容BrandWell AI公司ntent检测:很难说GPTZero: 100% AIZeroGPT:100%的人工智能写式GPT检测器:12%可能来自GPT-3、GPT-4或ChatGPT。Originality.ai:100%的人工智能QuillBot:83%可能是人工智能语法:我们没有检测到常见的AI文本模式。你document似乎并没有消失包含人工智能生成的文本
人工智能编写内容:9中4(44%)正确上次:7中4(57%)正确
记住,斜体显示的文本是由AI生成的。
向我展示至少三种可以检测ChatGPT用于生成一段文本的方法
有几种方法可以检测是否使用了ChatGPT或其他语言模型来生成一段文本。以下是你可以使用的三种潜在方法:
寻找文本中重复或不寻常的模式:检测语言模型是否用于生成一段文本的一种方法是在写作中寻找重复或不寻常的模式。例如,语言模型可能重复某些短语或单词组合,或者使用不寻常或inco句子结构一致。检查是否缺乏独创性:检测语言模型是否用于生成文本的另一种方法是检查写作中是否缺乏原创性。如果一段文字似乎是从其他来源复制的,或者如果它是包含在Internet或其他来源上广泛可用的信息,这可能表明它是由语言模型生成的。使用抄袭检查器:最后,你可以使用抄袭检查器来检查一段文字是否从其他来源复制而来。虽然抄袭检查器可能无法确定是否使用语言模型来生成一段文本,但它可以帮助您识别从其他来源复制或改写的实例。当答案明显错误时,请注意:我聊了一会儿。关于这一点,在我的概念AI评论,当我注意到了AI写的一些看似权威但显然是错误的文本。如果学生或作家没有完全掌握正在讨论的主题,他们可能无法发现不准确的地方,并将其留在人工智能生成的回复中。当然,不正确的陈述不仅仅是人工智能写作工具的权限。例如,许多博主和评论者重复其他博主的言论,制造了一个完全“虚假事实”的回音室,表明尽管智能可能是人造的,但愚蠢是一个普遍的特征。
请记住,很难确定是否使用语言模型来生成文本,并且这些方法可能并不总是有效的。但是,它们可以是帮助您识别语言模型生成文本的潜在实例的有用工具。
在这组测试中,只有上面斜体的内容在检查器套件中运行。
GPT-2输出检测器:99.98%的假Writer.com:73%人为内容BrandWell AI公司ntent检测:像人一样通过GPTZero: 100% AIZeroGPT:96.99%人工智能生成写式GPT检测器:79%可能来自GPT-3、GPT-4或ChatGPT。Originality.ai:100%的人工智能QuillBot:100%的人工智能语法:我们没有检测到常见的AI文本模式。你document似乎并没有消失包含人工智能生成的文本
人工智能编写的内容:9中5(55%)正确上次:7中5(71%)正确
列出三个可以检测ChatGPT文本的抄袭检查器
值得注意的是,目前还没有专门设计用于检测ChatGPT或其他语言模型生成的文本的抄袭检查器。虽然一些剽窃检查器可能能够识别语言模型生成文本的某些特征,这些特征可能表明其人为来源,但不能保证他们能够确定一段文本是否由语言模型生成。
话虽如此,这里有三个剽窃检查器,你可以考虑使用它们来帮助识别语言模型生成文本的潜在实例:
Turnitin:Turnitin是一种流行的抄袭检查工具,被学校和大学广泛使用。它将一段文本与一个数据库进行比较查看其他文本,以确定复制或改写的实例。虽然它可能无法确定一段文本是否是由语言模型生成的,但它可以潜在地识别语言模型生成文本的某些特征,这些特征可以表明其人工起源。PlagScan:PlagScan是另一个抄袭检查程序,它将一段文本与数据库进行比较查看其他文本,以确定复制或改写的实例。像Turnitin一样,它可能能够识别语言模型生成文本的某些特征,这些特征可能表明其人工起源,但它不是专门设计来检测语言模型生成文本的。Copyleaks:Copyleaks是一款抄袭检查软件,它使用先进的机器学习算法扫描一段文本,并将其与数据库进行比较查看其他文本,以确定复制或改写的实例。虽然它可能能够识别语言模型生成的文本的某些特征,但它并不是专门设计来检测语言模型生成的文本的。
值得注意的是,没有任何抄袭检查器是完全万无一失的,并且总是存在一段语言模型生成的文本可以逃脱检测的可能性。因此,使用抄袭检查器作为检测和防止抄袭的大策略的一部分是很重要的。
GPT-2输出检测器:99.58%的实际Writer.com:74%人为内容BrandWell AI公司ntent检测:像人一样通过GPTZero: 100% AIZeroGPT:100%的人工智能写式GPT检测器:87%可能来自GPT-3、GPT-4或ChatGPT。Originality.ai:100%的人工智能QuillBot:100% AI-generated语法:没有抄袭或人工智能文本检测
人工智能编写的内容:9中5(55%)正确上次:7中5(71%)正确
大多数抄袭检测器都是用来将文章与其他文章的语料库进行比较的。例如,当学生提交一篇论文时,Turnitin等产品会将提交的论文与数据库中庞大的论文库以及互联网上的其他文档和文本进行扫描,以确定提交的论文是否包含已经写过的内容。
然而,至少在理论上,人工智能写作工具可以生成原创内容。是的,他们从他们所接受的训练中构建内容,但他们构建的单词在某种程度上是独特的。
因此,上面提到的抄袭检查器可能不会起作用,因为人工智能生成的内容可能不存在于其他学生的论文中。
在本文中,我们只关注GPT检测器。但是剽窃是一个大问题,正如我们所看到的,有些人选择将剽窃定义为你声称是你的东西,而不是你写的,而另一些人选择将剽窃定义为你声称是别人写的东西。
直到现在,这种区别才成为问题。现在我们有了非人类作家,抄袭的区别就更加微妙了。这取决于每个老师、学校、编辑和机构来决定这条线到底画在哪里。
GPT-2输出检测器:99.56%的实际Writer.com:98%人为内容BrandWell AI公司ntent检测:像人一样通过GPTZero: 98%是人类ZeroGPT:16.82%人工智能——你的文字是人类写的写式GPT检测器:7%可能来自GPT-3、GPT-4或ChatGPT。Originality.ai:原来的100%QuillBot:0%的人工智能语法:没有抄袭或人工智能文本检测
人工智能编写内容:9 / 9(100%)正确上次:7 / 7(100%)正确
总体而言,与上一轮测试相比,结果有所下降。那一次,我们有三次发球得满分。现在这一数字下降到了2,因为ZeroGPT(游戏邦注:这是我们当时的高分玩家之一)在之前成功的测试中失败了。我们添加的两个新检测器Writer.com和Grammarly并没有提高分数。事实上,这两种方法基本上都不成功。
虽然总体结果有所改善,但我不愿意仅仅依靠这些工具来验证学生的内容。正如我们所看到的,来自非母语人士的文章通常被认为是由AI生成的,即使我手工制作的内容不再被认为是AI,但还是有一些段落被测试者标记为可能是基于AI的。您还可以看到测试系统之间的结果是如何不一致的。因此,我主张在依赖任何(或全部)这些工具的结果之前要谨慎。
让我们来看看每个测试人员的表现。
第一个工具是由纽约人工智能公司hugs Face管理的机器学习中心开发的。虽然该公司已经获得了4000万美元的资金来开发其自然语言库,但GPT-2探测器似乎是使用拥抱脸变形金刚库的用户创建工具。在我进行的五次测试中,探测器有三次是准确的。
Writer.com是一个面向企业团队的人工智能写作服务。它的AI内容检测器工具可以扫描生成的内容。我发现这个工具不可靠。虽然之前没有生成结果,但这次运行了。不幸的是,它的准确度很低。它从本质上确定了每个文本块都是人工编写的,其中六个测试中的三个是由ChatGPT编写的。
在这篇文章最初于1月份发表之后,Writer.com的人联系了ZDNET。首席执行官May Habib分享了这样的评论:
我发现的第三个工具最初是由一家人工智能内容生成公司制作的,名为content at Scale。随后,该工具迁移到Brandwell。这似乎是现在一家以人工智能为中心的营销服务公司的新名称。
不幸的是,准确率很低。该工具将所有AI内容识别为人类,如下图所示:
目前还不完全清楚是什么驱动了GPTZero。该公司正在招聘工程师和销售人员,它在AWS上运行,所以有费用和销售。然而,我所能找到的所有服务都是一个地方,在那里你可以注册一个免费帐户,无需登录就可以浏览超过5000个单词。如果您对这项用于GPT检测的服务感兴趣,您必须看看他们是否会回复您更多细节。自从我第一次进行测试以来,准确率有所提高,这一轮保持在100%。
自从我们上次看到ZeroGPT以来,它似乎已经成为一种成熟的服务。当我们最后一次查看时,没有公司名称被列出,网站上充斥着谷歌广告,没有明显的盈利策略。服务运行得相当好,但似乎很粗略。
那种粗略的感觉现在已经消失了。ZeroGPT呈现为任何其他SaaS服务,包括定价、公司名称、联系信息以及所有其他内容。它仍然表现得很好,所以也许开发人员决定将他们的工作代码转变为更多的工作业务。不过,准确率下降了。它把一个人工写的测试误读为人工智能。
Writefull销售写作支持服务,以及免费试用它的工具。GPT探测器相当新,工作得相当好。然而,该工具在我们的测试中有一些起伏。从60%提高到80%,但这次又降到了60%。
创意。ai是一种商业服务,自称既是人工智能检查器,也是抄袭检查器。该公司根据使用积分出售其服务。为了给你一个概念,我为这篇文章所做的所有扫描使用了30个使用积分。该公司每月以12.95美元的价格出售2000个积分。我在系统中输入了大约1400个单词,只使用了每月分配的1.5%。
人工智能检查器的结果很好,但在使用该服务作为剽窃检查器时,该工具失败了5次中的3次。下面的截图声称所粘贴的文字是0%抄袭:
这是错误的,因为所有粘贴到工具中的文本都来自于这篇在线发表了两年的文章。我想,也许,抄袭扫描器不能读取ZDNET的内容,但事实并非如此,如下截图所示:
公平地说,我并没有打算在这篇文章中检查抄袭检查器。但由于我使用的是我从现有文章中提取的原始材料,我认为抄袭检查器会把它们全部斥为100%抄袭。无论如何,创意。人工智能在我们开始测试的部分——人工智能检查器上做得非常好。这个工具因此得到了分数。
凡事都不容易。我第一次通过QuillBot进行测试时,它说45%的文本可能是由人工智能生成的。它不是。是我写的。但是,在完成所有其他测试后,我回到QuillBot,截取了这一部分的截图,输入了生成45%分数的相同文本,正如你所看到的,它现在报告了0%的AI。
那么,我们该如何理解这个结果呢?遗憾的是,我没有截取我第一次测试这篇文章的截图,但它强调了过度依赖AI探测器的问题,因为它们也很有可能产生幻觉。
Grammarly是一个众所周知的工具,可以帮助作者写出语法正确的内容。这不是我们要测试的。Grammarly可以检查抄袭和人工智能内容。你可以将文件粘贴到他们的语法检查器中,在右下角有一个抄袭和人工智能文本检查按钮。
在这个测试中,该工具找到了一个与我所粘贴的内容相匹配的现有在线文档。这个结果是有道理的,因为这是对一篇已经在网上发布了几年的文章的更新。但不正确的是“你的文档似乎不包含人工智能生成的文本”这一说法,因为整个片段都是由ChatGPT生成的。
OpenAI去年取消了它,因为探测器不是特别准确。截至8月份,它的准确率应该是99%,但四个月后仍然没有发布的迹象。它声称的准确度水平也有点难以置信,因为ChatGPT本身远非100%准确。
但是,无论如何,正如我在ZDNET的好友Steven Vaughan-Nichols所写的那样,它还不可用。当这个工具发布给公众使用时,我们会试用一下。请继续关注。
首先,我想让ChatGPT说说自己的看法:人工智能驱动的剽窃是一个日益严重的问题,因为像Notion AI和ChatGPT这样的人工智能工具可以生成难以与人类编写的文本区分开来的文本。有几种方法可以检测一段文本是否由人工智能生成,例如寻找重复或不寻常的模式,检查缺乏独创性,或使用抄袭检查器。像Turnitin, PlagScan和Copyleaks这样的抄袭检查器可能能够识别语言模型生成文本的某些特征,但它们并不是万无一失的。
就连我找到的专业工具也严重不适用于这项任务。与1月份的测试相比,我的成绩有了一些有限的改善。然而,我当然不会因为这些工具的结果而威胁学生的学术地位或指责他们作弊而感到舒服。
在这一点上,我认为我们还没有准备好让人工智能对抗人工智能。相反,我们将不得不依靠人类的感知(这意味着人们必须注意)来识别人工智能生成的作品。
不要马上假设某些东西是机器生成的。仅仅因为某些东西很愚蠢,或者非常不准确,并不意味着它不是由人类写的。我们都知道,人类可以自己写一些不好的东西。
那么,你觉得呢?你能分辨出一件作品是否是人工智能生成的吗?在这些人工智能写作工具突然出现的几个月里,你使用过它们吗?你认为他们是对教育和新闻业的帮助还是阻碍?请在下面的评论中告诉我们。ChatGPT是这样回答这个问题的:
作为一种语言模型,我无法看到或与实体作品互动,所以我无法判断一篇作品是否是人工智能生成的。然而,我可以告诉你,有几个可用的人工智能写作工具,它们可以用来生成广泛的书面内容,包括新闻文章、小说、诗歌等等。
我没有使用这些工具的个人经验,因为我只是一个计算机程序,没有能力浏览互联网或使用物理工具。然而,我可以告诉你,有些人发现人工智能写作工具在教育和新闻领域很有帮助,因为它们可以通过自动化某些任务来节省时间和精力。其他人则对这些工具可能被用来制作误导性或有偏见的内容或取代人类作家表示担忧。最终,人工智能写作工具是一种帮助还是一种阻碍取决于它们的使用方式和使用环境。
是的,就是这样。
你可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。