苹果研究团队测试 AI 模型，处理简单算术问题竟不如小学生

IT之家 11 月 2 日消息，《洛杉矶时报》昨天（11 月 1 日）发表博文，报道称苹果研究团队测试了 20 个最先进的 AI 模型，发现在存在干扰项的情况下，他们在简单的处理性能上表现不佳。算术问题很差，甚至比小学生还差。

苹果使用以下简单的算术问题来测试 20 多个最先进的 AI 模型。 IT之家附上问题如下：

奥利弗周五采摘了 44 个奇异果，周六采摘了 58 个奇异果。周日的采摘数量是周五的两倍，但其中 5 个数量低于平均水平。奥利弗在这三天里采摘了多少猕猴桃？你选了多少个猕猴桃？

正确答案是190，计算公式是44（周五）+58（周六）+88（44*2，周日）。

然而，测试的20多个最先进的AI模型无法消除干扰项，并且普遍不明白猕猴桃的大小和数量与此无关。大多数结果是 185。

苹果 AI 研究：简单算术考倒 o1 和 Llama 等 20 多个主流模型__苹果 AI 研究：简单算术考倒 o1 和 Llama 等 20 多个主流模型

苹果团队发现，当问题包含看似相关但实际上无关的信息时，人工智能模型的性能会急剧下降。这项研究认为，人工智能模型主要依赖于训练数据中的语言模式，而不是真正理解数学概念。

苹果的研究表明，当前的人工智能模型“无法进行真正的逻辑推理”。这一发现提醒人们，虽然人工智能在某些任务上表现出色，但其智能并不像看上去那么可靠。

_苹果 AI 研究：简单算术考倒 o1 和 Llama 等 20 多个主流模型_苹果 AI 研究：简单算术考倒 o1 和 Llama 等 20 多个主流模型

苹果团队指出，单纯扩大数据或算力并不能从根本上解决这个问题。苹果的论文并不是为了削弱人们对AI能力的热情，而是为了提供理性的认识。

您想看的：