苹果研究团队测试 AI 模型,处理简单算术问题竟不如小学生

admin 2024-11-03 42 0

IT之家 11 月 2 日消息,《洛杉矶时报》昨天(11 月 1 日)发表博文,报道称苹果研究团队测试了 20 个最先进的 AI 模型,发现在存在干扰项的情况下,他们在简单的处理性能上表现不佳。算术问题很差,甚至比小学生还差。

苹果使用以下简单的算术问题来测试 20 多个最先进的 AI 模型。 IT之家附上问题如下:

奥利弗周五采摘了 44 个奇异果,周六采摘了 58 个奇异果。周日的采摘数量是周五的两倍,但其中 5 个数量低于平均水平。奥利弗在这三天里采摘了多少猕猴桃?你选了多少个猕猴桃?

正确答案是190,计算公式是44(周五)+58(周六)+88(44*2,周日)。

然而,测试的20多个最先进的AI模型无法消除干扰项,并且普遍不明白猕猴桃的大小和数量与此无关。大多数结果是 185。

苹果 AI 研究:简单算术考倒 o1 和 Llama 等 20 多个主流模型__苹果 AI 研究:简单算术考倒 o1 和 Llama 等 20 多个主流模型

苹果团队发现,当问题包含看似相关但实际上无关的信息时,人工智能模型的性能会急剧下降。这项研究认为,人工智能模型主要依赖于训练数据中的语言模式,而不是真正理解数学概念。

苹果的研究表明,当前的人工智能模型“无法进行真正的逻辑推理”。这一发现提醒人们,虽然人工智能在某些任务上表现出色,但其智能并不像看上去那么可靠。

_苹果 AI 研究:简单算术考倒 o1 和 Llama 等 20 多个主流模型_苹果 AI 研究:简单算术考倒 o1 和 Llama 等 20 多个主流模型

苹果团队指出,单纯扩大数据或算力并不能从根本上解决这个问题。苹果的论文并不是为了削弱人们对AI能力的热情,而是为了提供理性的认识。

您想看的: