人工智能挑战寻求测试人类智力水平的问题

综合作者 / 花爷 / 2026-03-07 09:33
"
      旧金山人工智能领域的两家领先公司向公众发起挑战,要求他们提出能够测试大型语言模型(llm)能力的问题,比如Google

  

  artificial intelligence

  旧金山人工智能领域的两家领先公司向公众发起挑战,要求他们提出能够测试大型语言模型(llm)能力的问题,比如Google Gemini和OpenAI的01。Scale AI专门准备法学硕士培训所需的大量数据,该公司与人工智能安全中心(CAIS)合作,推出了名为“人类最后的考试”的计划。

  Scale和CAIS表示,他们的目标是测试我们距离利用“历史上最大、最广泛的专家联盟”实现“专家级人工智能系统”还有多远。对于选出50个最佳问题的人,他们将获得5000美元(3800英镑)的奖金。

  为什么要这样做?领先的法学硕士已经在智力、数学和法律领域的许多既定测试中取得了优异成绩,但很难确定这有多大意义。在许多情况下,他们可能已经预先学习了答案,因为他们接受了大量的数据训练,包括互联网上所有东西的很大一部分。

  数据是整个领域的基础。它是从传统计算到人工智能的范式转变的背后,从“告诉”到“展示”这些机器该做什么。这需要良好的训练数据集,但也需要良好的测试。开发人员通常使用尚未用于培训的数据来完成此工作,在术语中称为“测试数据集”。

  如果法学硕士们还不能预先学习律师资格考试等现有考试的答案,他们可能很快就会知道了。人工智能分析网站Epoch估计,到2028年,人工智能将有效地阅读人类写的所有东西。一个同样重要的挑战是,一旦越过了“卢比孔河”,如何继续评估人工智能。

  当然,互联网一直在扩张,每天都有数百万个新项目被添加进来。这样能解决这些问题吗?

  也许吧,但这也会导致另一个潜在的困难,即“模型崩溃”。随着互联网上越来越多的人工智能生成的材料流入未来的人工智能训练集,这可能会导致人工智能的表现越来越差。为了克服这个问题,许多开发人员已经开始从他们的人工智能与人类的互动中收集数据,为训练和测试添加新的数据。

  一些专家认为,人工智能也需要变得“具体化”:像人类一样,在现实世界中活动,获得自己的经验。这听起来可能有些牵强,除非你意识到特斯拉多年来一直在用它的汽车做这件事。另一个机会是人类可穿戴设备,比如雷朋(Ray-Ban)推出的textarea流行智能眼镜。这些机器人配备了摄像头和麦克风,可以用来收集大量以人为中心的视频和音频数据。

  然而,即使这些产品保证未来有足够的训练数据,如何定义和衡量智能——特别是人工通用智能(AGI)——仍然是一个难题,这意味着人工智能等于或超过人类的智能。

  长期以来,传统的人类智商测试一直备受争议,因为它未能捕捉到智力的多面性,包括从语言到数学、从同理心到方向感等方方面面。

  用于人工智能的测试也存在类似的问题。有许多完善的测试涵盖了总结文本、理解文本、从信息中得出正确推论、识别人类姿势和手势以及机器视觉等任务。

  一些测试正在被淘汰,通常是因为人工智能在这些测试上做得很好,但它们是针对特定任务的,因此是非常狭隘的智力衡量标准。例如,下棋的人工智能Stockfish在Elo评分系统中遥遥领先于马格努斯·卡尔森(Magnus Carlsen),后者是有史以来得分最高的人类棋手。然而Stockfish无法完成其他任务,比如理解语言。显然,将其国际象棋能力与更广泛的智能混为一谈是错误的。

  但随着人工智能展现出更广泛的智能行为,挑战在于设计新的基准来比较和衡量它们的进步。一种值得注意的方法来自谷歌的法国工程师弗兰索瓦·乔莱。他认为,真正的智力在于能够适应新的、看不见的情况,并将学习推广到新的情况。2019年,他提出了“抽象和推理语料库”(ARC),这是一个简单视觉网格形式的谜题集合,旨在测试人工智能推断和应用抽象规则的能力。

  以前的基准测试是通过训练人工智能对数百万张图像进行视觉物体识别,每张图像都包含有关物体的信息,而ARC不同,它提前给出了最少的例子。AI必须弄清楚谜题的逻辑,而不能只是学习所有可能的答案。

  虽然ARC测试对人类来说并不是特别难,但第一个达到85%分数的人工智能系统将获得60万美元的奖金。在撰写本文时,我们离这一点还有很长的路要走。最近两个领先的法学硕士,OpenAI的01预览和Anthropic的十四行诗3.5,在ARC公共排行榜(即ARC- agi - pub)上都获得了21%的得分。

  最近使用OpenAI的gpt - 40的另一个尝试得分为50%,但有些争议,因为该方法在选择给出最佳答案的测试之前生成了数千种可能的解决方案。即便如此,这仍远未达到令人欣慰的水平,也远未达到人类90%以上的表现。

  虽然ARC仍然是当今测试人工智能中真正智能的最可信的尝试之一,但Scale/CAIS计划表明,人们仍在寻找令人信服的替代方案。(有趣的是,我们可能永远不会看到一些获奖问题。试卷不会在网上公布,以确保人工智能不会偷看试卷。)

  我们需要知道机器何时会接近人类的推理水平,以及由此引发的所有安全、伦理和道德问题。到那时,我们可能会遇到一个更难的考试问题:如何测试超级智能。这是一个更复杂的任务,我们需要弄清楚。

  公司提供

  nversation

  本文转载自The Co在知识共享许可下的对话。阅读原文。The Conversation

  引用:人工智能挑战寻求测试人类智力水平的问题(2024年10月7日),2024年10月8日检索自https://techxplore.com/news/2024-10-ai-human-intelligence.html本文档

  作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司

  内容仅供参考之用。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读