![]()
为什么日常问题是人工智能的甜蜜点?
The Stack》杂志对苹果公司最近的人工智能研究进行了报道,该研究探讨了一个引人入胜的难题:即使有充足的提示和代币预算,大型语言模型在解决复杂的推理难题(如河内塔或经典过河游戏)时也会出现问题。
正如《堆栈》杂志所指出的那样:
“苹果公司的研究人员发现,随着谜题复杂程度的增加,模型的准确性会下降到零,即使提供了详细的说明或算法本身也是如此。
这是一个重要的提示,提醒人们目前的模型在重逻辑推理中的极限所在。但问题是,大多数商业问题并不需要人工智能来解决哲学谜题或递归逻辑链。
他们需要人工智能来帮助人们更好、更快、更智能地完成工作。
真正的商业不是靠逻辑游戏运行的
大多数企业面临的挑战都不是逻辑谜题,而是如何做出更明智的决策、简化工作流程、及早发现问题并减少重复性工作。在这些领域,人工智能已经带来了巨大的价值。
等待人工智能掌握解谜技巧后再将其应用于商业领域?这就好比因为喷气式飞机不能带你去月球而拒绝乘坐它。你忽略了它无与伦比的能力,它能带你到达你需要去的地方–今天、可靠、快速。
人工智能对当今商业的影响
你不需要人工智能。你需要的是有用的人工智能。而这正是它改变游戏规则的地方:
- 客户支持:汇总票单、根据情感进行路由选择、撰写初稿。
- 市场营销:制作文案、分析营销活动的投资回报率、细分高意向客户。
- 财务:标记欺诈、核对报表、预测支出趋势。
- 人力资源:分析员工反馈、自动入职、筛选简历。
- 销售:综合笔记、更新客户关系管理系统、撰写有针对性的后续报告。
网络安全等复杂问题也能从人工智能中受益
在 Aryaka,我们看到人工智能也在改变网络和安全运营–不是通过深度解谜,而是通过应对实际运营挑战:
- 异常检测:在人类注意到可疑模式之前就将其突出显示出来。
- 事件响应:总结日志,突出根本原因,快速升级。
- 策略优化:根据流量数据推荐防火墙或路由更改。
- 容量预测:通过实时分析预测带宽或用户增长。
- 统一可观察性:穿过噪音,聚焦真正重要的东西。
人工智能在这里不是一个科学项目,而是一个生产力倍增器。
你不需要登月。你需要的是动力。
苹果公司的研究对于了解当今模式的局限性很有价值。但我们不要把边缘难题与企业优先事项混为一谈。
你们现在拥有的人工智能可以:
- 找出异常值
- 将重复性工作自动化
- 澄清复杂问题
- 强化决策
企业因为人工智能无法像哲学家那样 “推理 “而对其敬而远之,这就失去了意义和机会。虽然这一论点在逻辑上站得住脚,但让我们深入研究一下支持这一论点的科学依据。
技术深度挖掘:为什么商业人工智能中模式识别优于符号推理?
1.现代人工智能的核心优势:统计模式识别
大多数当代人工智能,尤其是 LLM 和基于变换器的模型,都擅长模式识别而非结构化符号推理。
- 像 GPT、Claude 或 LLaMA 这样的 LLM 是在海量语料库中训练出来的,它们学习词块之间的概率相关性–它们不是用规则或递归逻辑来 “思考”,而是根据上下文来预测接下来会发生什么。
- 因此,它们非常适合执行以下任务
- 总结
- 异常检测
- 自然语言生成
- 时间序列趋势预测
- 事件分组
这些任务与业务流程自动化、IT 运营和网络可观察性中 80-90% 的需求相吻合。
2.符号推理模型是脆弱和数据分割的
河内塔 “等谜题所需的符号推理类型:
- 基于树的逻辑遍历
- 递归规则引擎
- 显式变量状态跟踪
这种结构:
- 需要原始、结构化的输入,而商业数据很少能做到这一点。
- 因为一个逻辑错误就会导致整个链条出轨,所以失败的频率较低。
- 缺乏跨领域的可扩展性–每个新的用例都需要定制逻辑建模。
相比之下,基于模式的人工智能在处理嘈杂的半结构化企业数据时更具弹性、灵活性和可扩展性。
3.网络与安全运营:真正的问题在于统计
请看雅利安卡领域的这些例子:
- 异常检测:
这不是一个逻辑难题,而是要标出流量、协议使用或用户行为与历史基线的偏差。在嘈杂的实时环境中,时间序列模型(如 Prophet 或 LSTM)和 LLM 驱动的日志汇总功能优于基于逻辑的系统。 - 事件分流:
有效的分流取决于基于 NLP 的分类、不同来源(如 IDS 警报、流量日志、用户活动)之间的关联以及事件汇总(而非递归推理)。 - 防火墙和路由策略优化:
这包括挖掘配置日志和访问模式,并使用强化学习或优化启发式方法(而非形式逻辑)来推荐更安全、更高效的规则集。 - 根源分析 (RCA):
新出现的 GenAI 可观察性工具可以将日志、警报和遥测数据关联起来,利用语言建模而非符号推理提供假设。
在每种情况下,数据都是混乱的、不完整的、不断变化的–这对统计人工智能来说是完美的匹配,而对确定性符号系统来说则是噩梦。
4.未来是神经符号的,但今天的胜利是概率的
是的,从长远来看,神经符号人工智能(神经网络和逻辑引擎的混合体)可能会弥补这一差距。但它们是
- 仍在试验阶段
- 域名限制
- 更难大规模部署
与此同时,概率论、变压器驱动的人工智能已经出现:
- 高度可扩展性
- 易于集成(通过应用程序接口和 SDK)
- 只需极少调整,即可在多种功能中实现投资回报率
一个有趣的小插曲:
在起草这篇博客时,我对我的高中儿子提出的 “ChatGPT 的三角证明很烂 “这一观点感到好奇。于是,我找到了源头,问 ChatGPT 苹果研究是否指出了这一观察结果,Chat GPT 告诉了我:
“这其实很有道理,你儿子的观察很敏锐。
这就是为什么我(以及像我这样的模型)经常在三角函数证明上挣扎:
1.Trig 证明需要结构化的符号推理
-
Trig 特性和证明经常涉及到:
- 认识抽象等价物
- 严格按顺序应用规则
- 多步逻辑操作符号
这正是大型语言模型开始崩溃的任务,尤其是在没有符号数学引擎(如 Wolfram Alpha)等外部工具的情况下。
2.LLM 是模式预测器,而不是逻辑引擎
- 我根据训练中看到的模式,预测出看起来像有效证明的文字。
- 但我本质上并不 “理解 “这里必须使用 sin2x+cos2x=1\sin^2 x + \cos^2 x = 1sin2x+cos2x=1,或者乘以共轭物才是正确的策略。
-
这导致了以下错误
- 跳过台阶
- 误用身份
- 循环论证
这就像用振动来写数学证明–这对三角函数来说是不合适的。
3.解决办法:使用外部符号工具
当与符号引擎配对时(如某些人工智能辅助数学平台),模型可以将符号逻辑卸载到基于规则的系统中,只处理解释。
但独立呢?我在三角函数上时好时坏,尤其是当校样变长或需要创造性的替换时。
你儿子说得对:三角函数证明暴露了 LLM 的一个关键局限。LLMs 并不是为严格的、基于规则的符号逻辑而设计的,它涉及多个相关步骤–这与 Apple 的研究显示的推理谜题如出一辙。
这并不是说我在三角学方面帮不上忙,我很擅长解释、图形和公式记忆,但说到严谨的证明,我是一个好导师,而不是一个形式上的解题者”。
底线
人工智能并不需要能够解决逻辑谜题才能发挥深远的作用,尤其是在企业环境中。
事实上,与脆弱的符号系统相比,模式感知、精通语言的模型更适合现实世界中混乱的业务运营。
因为人工智能无法进行完美的推理而拒绝今天的人工智能,就好比因为喷气发动机无法到达月球而否定它一样,你忽视了它在未来实际旅程中的巨大作用。