人工智能的黑匣子变得不那么神秘了

美食作者 / 花爷 / 2025-03-21 19:43
"
      旧金山:关于当今领先的人工智能系统,一个更奇怪、更令人不安的事情是,没有人——甚至是构建它们的人——真正知道

  

  

  旧金山:关于当今领先的人工智能系统,一个更奇怪、更令人不安的事情是,没有人——甚至是构建它们的人——真正知道这些系统是如何工作的。

  这是因为大型语言模型,即为ChatGPT和其他流行的聊天机器人提供动力的人工智能系统,不像传统的计算机程序那样,由人类工程师逐行编程。

  相反,这些系统基本上是自己学习的,通过摄取大量的数据,识别语言中的模式和关系,然后使用这些知识来预测序列中的下一个单词。

  以这种方式构建AI系统的一个后果是,很难对它们进行逆向工程,或者通过识别代码中的特定错误来修复问题。现在,如果用户输入“美国哪个城市有最好的食物?”,而聊天机器人的回答是“东京”,我们无法真正理解为什么这个模型会犯这个错误,或者为什么下一个提问的人可能会得到不同的答案。

  当大型语言模型行为不当或偏离轨道时,没有人能真正解释原因。(我去年遇到过这个问题,当时一个必应聊天机器人在与我互动时表现得很疯狂。即使是微软的高管也不能确切地告诉我哪里出了问题。)

  大型语言模型的不可知性不仅令人烦恼,而且是一些研究人员担心强大的人工智能系统最终可能对人类构成威胁的主要原因。

  毕竟,如果我们不了解这些模型内部发生了什么,我们怎么知道它们是否可以用来制造新型生物武器、传播政治宣传或编写用于网络攻击的恶意计算机代码?如果强大的人工智能系统开始不服从或欺骗我们,如果我们不知道是什么导致了这种行为,我们怎么能阻止它们呢?

  为了解决这些问题,人工智能研究的一个小分支——“机械可解释性”(mechanistic interpretability)花了数年时间试图深入研究人工智能语言模型的内部。这项工作进展缓慢,进展缓慢。

  对于人工智能系统会带来多大风险的观点,也有越来越多的人表示反对。上周,ChatGPT的制造商OpenAI的两名高级安全研究人员离开了公司,原因是该公司在确保产品安全方面是否做得足够的问题上与高管发生了冲突。

  但本周,人工智能公司Anthropic的一组研究人员宣布了他们所谓的重大突破——他们希望这将使我们能够更多地了解人工智能语言模型的实际工作原理,并可能防止它们变得有害。

  该团队在一篇名为“绘制大型语言模型的思维”的博客文章中总结了这一发现。

  研究人员研究了Anthropic的一个人工智能模型——克劳德3十四行诗,这是该公司克劳德3语言模型的一个版本——并使用了一种被称为“字典学习”的技术来揭示当克劳德被提示谈论某些话题时,人工智能模型中的数学单元神经元的组合是如何被激活的模式。他们确定了大约1000万个这样的模式,他们称之为“特征”。

  例如,他们发现,每当克劳德被要求谈论旧金山时,他的一个特征就会活跃起来。每当提到免疫学或特定科学术语(如化学元素锂)等主题时,其他功能就会激活。有些特征与更抽象的概念有关,比如欺骗或性别偏见。

  他们还发现,手动打开或关闭某些功能可能会改变人工智能系统的行为方式,甚至可能让系统打破自己的规则。

  例如,他们发现,如果他们强迫与谄媚概念相关的特征更强烈地激活,克劳德会对用户做出华丽的、夸张的赞美,包括在奉承不合适的情况下。

  人类可解释性研究团队的负责人克里斯·奥拉(Chris Olah)在接受采访时表示,这些发现可以让人工智能公司更有效地控制他们的模型。

  他说:“我们正在发现一些功能,这些功能可能会揭示人们对偏见、安全风险和自主驾驶的担忧。”“我感到非常兴奋,因为我们可能能够把人们争论的这些有争议的问题变成我们实际上可以进行更有成效的讨论的事情。”

  其他研究人员在中小型语言模型中也发现了类似的现象。但Anthropic的团队是最早将这些技术应用于全尺寸模型的团队之一。

  麻省理工学院(Massachusetts Institute of Technology)计算机科学副教授雅各布·安德烈亚斯(Jacob Andreas)回顾了Anthropic的研究总结,他认为这是一个有希望的迹象,表明大规模的可解释性是可能的。

  他说:“就像了解人类如何工作的基本原理帮助我们治愈疾病一样,了解这些模型如何工作既能让我们意识到事情何时会出错,又能让我们建立更好的工具来控制它们。”

  Anthropic研究负责人奥拉警告说,尽管这些新发现代表了重要的进展,但人工智能的可解释性仍远未解决。

  首先,他说,最大的人工智能模型可能包含数十亿个代表不同概念的特征——比Anthropic团队声称发现的1000万个特征要多得多。将它们全部找到需要巨大的计算能力,而且除了最富有的人工智能公司之外,其他公司的成本都太高了。

  即使研究人员能够识别大型人工智能模型中的每一个特征,他们仍然需要更多的信息来了解模型的全部内部工作原理。也不能保证人工智能公司会采取行动,使它们的系统更安全。

  不过,奥拉说,即使稍微打开这些人工智能黑匣子,也可以让公司、监管机构和公众对这些系统的控制更有信心。

  他说:“我们面前还有很多其他的挑战,但看起来最可怕的事情似乎不再是路障。”-《纽约时报

  ×

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读