“目前的法学硕士不具备真正的逻辑推理能力；相反，他们试图复制原因苹果团队说：“他们在训练数据中观察到的舞步。”

美食作者 / 花爷 / 2025-05-29 02:33

　　　　　　在我们等待苹果智能时代到来的同时，苹果最近的一项研究可能值得考虑，该研究暴露了现有人工智能模型的关键弱点。　

　　 Apple Intelligence

　　在我们等待苹果智能时代到来的同时，苹果最近的一项研究可能值得考虑，该研究暴露了现有人工智能模型的关键弱点。

　　苹果公司的研究人员想要弄清楚gpt - 40、Llama、Phi、Gemma或Mistral等法学硕士在多大程度上能够真正地进行逻辑推理，从而得出结论/提出建议。

　　研究表明，尽管大肆宣传，llm（大型语言模型）并没有真正执行逻辑推理——它们只是复制从训练数据中学习的推理步骤。这是一个相当重要的承认。

　　“目前的法学硕士不具备真正的逻辑推理能力；相反，它们试图复制训练数据中观察到的推理步骤，”苹果团队表示。

　　他们发现，虽然这些模型似乎显示出逻辑推理，但即使是查询方式上最微小的变化也可能导致截然不同的答案。他们警告说：“这些模型中数学推理的脆弱性（表明），随着问题中从句数量的增加，它们的表现会显著恶化。”

　　为了克服现有测试的局限性，苹果研究团队推出了旨在评估人工智能系统推理效率的基准测试工具GSM-Symbolic。

　　这项研究确实显示了目前可用的模型的一些优势。例如，chatgpt - 40在测试中仍然达到了94.9%的准确率，尽管当研究人员将问题变得更复杂时，这一准确率会显著下降。

　　到目前为止，这还不错，但当研究人员通过添加“看似相关但最终无关紧要的陈述”来修改挑战时，成功率几乎下降了65.7%。

　　这些准确性的下降反映了当前LLM模型固有的局限性，它基本上仍然依赖于模式匹配来获得结果，而不是利用任何真正的逻辑推理。研究人员说，这意味着这些模型“在没有真正理解其含义的情况下将语句转换为操作”。

　　科学家、作家、人工智能评论家、纽约大学心理学和神经科学教授加里·马库斯（Gary Marcus）在评论苹果的研究时写道：“在这个基础上，你根本不可能建立可靠的代理，以不相关的方式改变一两个词或添加一些不相关的信息可能会给你一个不同的答案。”

　　马库斯教授还指出了其他一些有趣的迹象，表明苹果的发现是正确的，包括亚利桑那州立大学的一项分析，该分析显示，随着问题变得更大，法学硕士的表现会下降，而聊天机器人下棋时也无法不走违法的棋。

　　尽管如此，在使用这些机器解决更传统的问题时所显示出的高精度表明，尽管人工智能很脆弱，但它可以作为人类决策的辅助工具。

　　至少，数据表明，完全信任这项技术是不明智的，因为当模型在训练期间推导出的底层逻辑被拉伸时，就有失败的倾向。人工智能似乎不知道自己在做什么，也缺乏在犯错时发现错误所需的自我批评能力。

　　当然，对于一些经常否认部署人工智能会导致失业的人工智能传播者来说，这种缺乏逻辑一致性的情况可能是个好消息。

　　为什么?

　　因为它提供了一个论点，即人类仍然需要监督这些智能机器的应用。但是，那些能够在逻辑错误付诸行动之前发现它们的熟练的人类操作员，可能需要与人工智能移到一边的人类使用的技能不同。

　　苹果研究员Mehrdad Farajtabar在社交媒体上解释了这份报告，他警告说：

　　我认为还有另一个挑战。苹果的研究团队可能无意中表明，现有的模型只是应用了它们被训练使用的那种逻辑。

　　迫在眉睫的问题是，在训练这些模型时所选择的逻辑在多大程度上可能反映出那些为这些模型的创建付费的人的局限性和偏见。当这些模型随后被部署到现实世界中时，这意味着这些模型所采取的未来决策将保留原始逻辑中固有的缺陷（伦理、道德、逻辑或其他）。

　　将这些弱点纳入国际上日常使用的人工智能系统可能最终会加强偏见，同时削弱必要变革的证据。

　　在很大程度上，即使在最近的人工智能法规草案中，这些重大争论仍然完全没有得到解决，因为在一个生存挑战危机驱动变革的时代，不切实际的政府寻求难以捉摸的经济增长幻想。

　　如果不出意外的话，苹果的团队已经表明，目前认为人工智能是万灵药的信念，正在成为一种新的技术信仰体系（就像一位媒体人士目前出售的反wi - fi护身符一样），因为一些查询调整很容易产生虚假结果和错觉。

　　最后，我们不希望负责公共交通（包括机器人出租车）的人工智能系统仅仅因为传感器获取了其固有模型无法理解的令人困惑的数据而发生事故，这一点真的不应该有争议。

　　在一个充满可能性的世界里，意想不到的挑战是正常的，垃圾进入，确实会变成垃圾排出。也许我们在应用这些新工具时应该更加慎重？公众当然是这么认为的。

　　请在Mastodon上关注我，或者在MeWe上加入我的苹果爱好者的酒吧和烧烤以及苹果讨论组。

分享到

声明：本文为用户投稿或编译自英文资料，不代表本站观点和立场，转载时请务必注明文章作者和来源，不尊重原创的行为将受到本站的追责；转载稿件或作者投稿可能会经编辑修改或者补充，有异议可投诉至本站。