近日,苹果机器学习研究团队发布了一项引人关注的研究,指出当前所谓的大型推理模型(LRM,如 OpenAI、Anthropic、Google 等推出的模型)在面对难度不断提升的逻辑类问题时,会出现准确率骤降至 0、推理努力减少的现象,表明这些模型并没有真正具备稳定的“思考”能力。
研究背景与核心发现
实验设计:复杂性可控的逻辑谜题
研究团队采用了像 河流过渡 和 汉诺塔(Tower of Hanoi) 等经典谜题,通过可控手段系统增加问题复杂度,同时观察模型的“思考过程”和最终结果,避免传统数学或编程基准可能的数据泄露问题。
- 苹果机器学习团队最新发布研究,指出当前大型推理模型(LRM)在面对高复杂度逻辑题时,准确率骤降至零,且推理过程中的计算量急剧下降,表现出“放弃思考”的现象。
- 研究用经典谜题如河流过渡和汉诺塔,通过逐步增加难度控制变量,观察模型的表现和推理行为,规避了训练数据泄露的影响。
- 结果显示,低复杂度时普通大语言模型LLM表现更好,中等难度下推理模型依赖“链式思考”提升表现,但高复杂度下所有模型准确率急剧崩溃。
模型推理能力的“崩溃”与“偷懒”
- 在复杂度临界点,模型的有效 token 使用量明显下降,表明模型在完成部分步骤后“停止推理”。在问题复杂度接近崩溃阈值时,这些模型伴随着有效 tokens 使用量骤降(即前几步还在思考,後面却“偷懒”了),表现出类似“放弃继续解题”的行为 。
- 即使研究者直接给出解题算法,模型仍无法有效利用,说明其并非真正理解算法逻辑。为了验证模型是否真无法理解算法,研究者在汉诺塔问题中提供了解题算法,但这些模型依然无法提升准确率,表明它们并不能用“听懂并执行算法”的思维方式,而是纯粹靠训练数据中的“模式匹配” 。
研究实验示意表
| 复杂度等级 | 模型类型 | 表现趋势 | 备注 |
|---|---|---|---|
| 低 | 普通大语言模型 | 准确率较好 | 推理模型表现一般 |
| 中 | 推理模型(含链式思考) | 准确率提升 | 链式思考开始有效 |
| 高 | 所有模型 | 准确率急剧下降至0 | 模型推理“崩溃”并“放弃” |
专家观点与行业影响
- Gary Marcus:该研究“毁灭性”,打破了大语言模型快速通向通用人工智能的幻想。
- Andrew Rogoyski:当前推理模型已遇瓶颈,现有方法或进入“死胡同”。
苹果的AI发展战略解读
- 此次研究发布正值 WWDC 2025 前夕,体现苹果强调“设备端效率”和“实际应用价值”,反对盲目追求模型规模和复杂度。
- 苹果去年推出的“Apple Intelligence”基于 ChatGPT 技术,但表现平平,此次研究进一步证明稳扎稳打才是长远之计。
未来方向与思考
- 建立无数据泄露风险的逻辑谜题评测基准,避免传统 benchmark 偏差。评估基准的重塑:苹果强调使用无训练数据泄露、谁都无法“抄答案”的可控逻辑谜题来测试 AI,以避免传统 benchmark 的偏差。
- 引入符号逻辑和神经符号混合技术,突破纯统计学习的限制。融合思维范式:当前 LLM 的“链式思考”是统计学习,并不是真正的推理。未来可能引入 符号逻辑、神经符号混合 等技术路径。
- 结合专用推理子系统,提升模型对复杂算法的理解与执行能力。专用推理系统搭配神经网络:苹果研究者曾指出,搭配专门的数学/推理子系统能弥补大语言模型的机制性思维不足。
总结
- 链式思考并不等于真正的思考。当前推理模型在复杂问题面前容易“崩溃”和“放弃”。
- 未来AI发展需要超越纯数据驱动的模式匹配,向可解释、可操作的逻辑机制进化。
- 苹果此次研究为业界敲响警钟,也明确了其在AI道路上的稳健路线。
相关引用示例代码(伪代码展示算法示意)
以下是汉诺依塔(Hanoi)的递归算法:
function solveTowerOfHanoi(n, from, to, via) {
if (n == 0) return;
solveTowerOfHanoi(n-1, from, via, to);
moveDisk(from, to);
solveTowerOfHanoi(n-1, via, to, from);
}
评论
缺乏物理世界的规律认知。
Meta的那个scientist一直说现在的LLM不能理解物理世界,所欲AGI肯定不是llm。
其实你想想ai的底层逻辑是建立在token上的就很反直觉。莫拉维克悖论。
when it scales.. 会出现 智能”涌现”的现像,就是一个黑箱。
脑科学,涌现。其实想想人脑真挺厉害的,而且人脑是那么一丁点大的基因表达出来的一个器官。每个正常成年人都可以精确控制自己的肢体动作,例如抓取杯子喝水啥的。但是机器人确需要精准的算法设计和大量训练,也许正确的道路是战锤里面的湿件,血肉苦弱,机械飞升。
lecun说的没问题 目前的llm就还是统计模型 物理世界数据太少了所以无法理解。
也有人质疑这个论文,说不是推理不出来,是token限制。数据太少了无法大量训练。它论文里有一块,说模型在不同puzzle中的表现不一致,可能跟训练数据中puzzle在网络上的曝光度有关。但实际上论文里没提供训练数据分析或者数据增强实验这种证据,只是单纯的假设了一下。我感觉有点不严谨。
脑科学和ai有很多内联。脑科学没有完全研究明白之前也可以从自上而下的角度来逼近。就像海马体的空间导航功能来启发类脑slam。虽然内部神经元的连接细节还不明确。人脑用很小的物理世界数据就能训练完成。
人脑带宽就10bit,但这是真推理,人脑做决策,计算量很小,但是每秒能处理很多大量的工作。我的脑子这么屌,为什么一个月才值 3000。
但是人脑有预训练权重啊。刚生下来的小孩就已经有很多牛逼的功能了。也对。是不是说明,训练需要几百万年,做推理的时候计算量很小,利好边缘AI部署。这个就是脉冲神经网络的一个应用方向。
人类有集体潜意识 是训练几百万年 通过遗传留下来的weight。
脉冲很稀疏,虽然也还只是特别粗糙的模拟,但是也有一些应用价值。
计算机就是靠易经发明的 所以得回到道教里面去找灵感怎么搞AI。
参考文献
- 苹果发表的文章:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
- ‘The illusion of thinking’: Apple research finds AI models collapse and give up with hard puzzles
新闻/实事/经济
- CloudFlare宕机, 半个互联网崩了?
- 2025年10月10号币圈黑天鹅: 要想一直在牌桌前就不要玩杠杆/合约
- 微软股东大会: 拒绝将比特币纳入公司资产负债表
- 超市里的警报: 英国紧急警报测试
- 英国抓捕比特币ATM主犯: 所有与法币挂钩的加密活动必须获得许可
- 英国电信公司Three重大事故: 从资本家嘴中薅了15英镑的羊毛
- 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”
- 中美贸易战告一段落, 牛市来了?
- 特朗普怂了? 美股币圈反弹
- 特朗普加关税的公式竟然是EXCEL里弄的?
- 经济危机? 美股币圈房产全面下跌
- 美国大选, 特朗普二次当选, 比特币大涨
- 有一点FEMO: 并没赶上TRUMP特朗普币, 错过几个亿!
- 特朗普2.0: 乌克兰的命运由美俄决定, 欧洲被卖了
- 比特币最近波动有点大: 一天牛市一天熊
- DOGE: 政府效率部 - 狗狗币起飞了! 再一次FEMO! (狗币简介)
- 牛市2025! 比特币 All Time High 上了10万美金
人工智能 / Artificial Intelligence
- Alpha Arena: AI 在真实市场的实盘对决与深度分析
- 怎么样通过提示词绕开ChatGPT等AI的换脸限制
- 用Copilot AI来审核区块链钱包代码
- 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec's Paradox)
- 苹果最新研究揭示: AI推理模型在复杂逻辑题面前“崩溃”与“放弃”
上一篇: 为什么 Linux Shell 命令前加空格会有影响?
下一篇: 为什么AI下棋比走路简单? 莫拉维克悖论全解析(Moravec's Paradox)