从科学哲学到AI:普特南的批判与解释倾向如何映射机器学习预测与可解释性
1. 项目概述当科学哲学遇见机器学习作为一名长期在人工智能领域摸爬滚打的从业者我常常思考一个看似跨界的问题我们训练出的那些“黑箱”模型它们做出预测的逻辑与科学家们构建和选择理论的过程究竟有何异同最近重读科学哲学的一些经典文献特别是希拉里·普特南关于理论“确证”的论述让我找到了一个绝佳的切入点。普特南区分了科学理论选择的两种“倾向”批判倾向和解释倾向。前者关注理论如何与辅助陈述结合以做出可检验的预测后者则关注理论如何解释已知的事实。普特南的洞见在于这两种倾向并非对立而是相互依存、互为前提的。这让我立刻联想到了我们每天都在打交道的深度学习模型。一个训练好的模型其海量参数就像一个凝固的“理论”它本身不会产生任何输出。只有当我们将一个具体的“输入”比如一段文本提示、一张图片喂给它时它才会基于这些参数“预测”出一个输出。这个过程不正酷似普特南的“批判倾向”图式吗模型理论加上输入辅助陈述共同导向一个预测。反过来当我们试图理解模型为何会做出某个特定预测即进行“模型可解释性”研究时我们又在进行一场“解释倾向”的探索我们试图从模型的参数和行为中为观察到的输出事实找到一个合理的解释。本文将带你进行一次思想实验从机器学习的实践视角重新解读普特南的哲学框架。我们会看到这两种倾向的互依性不仅在科学哲学的理论思辨中成立更在机器学习这一当代最活跃的“预测引擎”中得到了生动的体现。无论你是对AI原理好奇的开发者还是对科学方法论感兴趣的思考者这篇文章都将为你提供一个连接抽象哲学与具体技术的桥梁揭示预测与解释这对古老认知范畴在数字时代的新形态。2. 核心概念拆解普特南的两种倾向与机器学习的映射2.1 批判倾向预测的逻辑与模型的“前向传播”普特南用“图式I”来刻画批判倾向。简单来说它描述了一个科学预测是如何产生的理论 (Theory) 辅助陈述 (Auxiliary Statements) ↓ 预测 (Prediction) – 真或假这里的核心在于理论本身并不能直接做出预测。以牛顿的万有引力定律为例这个定律本身F G * m1 * m2 / r²只是一个数学关系式。要预测地球绕太阳的轨道我们必须引入一系列辅助陈述例如“系统中只有太阳和地球两个质点”、“它们处于真空中”、“除了相互的引力外不受其他力”。正是理论加上这些将理论“锚定”到具体情境中的辅助假设才导出了一个关于轨道形状的具体、可检验的预测。如果预测失败比如观测到的轨道与计算不符问题可能出在理论本身也可能出在某个辅助假设上比如是否存在未被考虑的其他行星引力干扰。科学检验的复杂性正在于此。在机器学习中这个过程有一个几乎完美的对应物模型的前向传播Forward Propagation。一个训练好的深度神经网络其架构和数以亿计的参数构成了一个复杂的“理论”或“函数”。但这个“理论”是沉默的。当我们给它一个输入——比如一张猫的图片或者一句“法国的首都是”——这个输入就扮演了“辅助陈述”的角色。它限定了模型“理论”的应用场景和条件。模型内部的计算前向传播过程就是“理论”参数与“辅助陈述”输入数据相结合最终“预测”出一个输出“这是一只猫”或“巴黎”的过程。这里有一个关键的哲学映射点输入数据作为“辅助陈述”同样具有解释性功能。当我们向一个大语言模型提问时我们的提示词prompt不仅提供了预测的“原材料”更框定了预测的意义域。例如输入“从经济学角度分析”和“从心理学角度分析”即使针对同一事件模型也会给出截然不同的预测性回答。这正说明了辅助陈述输入为理论的预测提供了解释性的上下文使其预测变得“有意义”而不仅仅是符号的堆砌。没有这个上下文预测无从谈起也无法被理解。2.2 解释倾向寻求理解与模型的“可解释性”研究普特南的“图式II”描绘了另一种科学活动——解释理论 (Theory) ? (待发现的辅助陈述) ↓ 待解释的事实 (Fact to be Explained)在这里我们从一个已知的理论和一个待解释的观察事实出发目标是找到那些缺失的辅助陈述使得从该理论和这些陈述中能够逻辑地推导出那个事实。科学史上经典的例子就是海王星的发现当时天王星的观测轨道与根据牛顿力学和已知行星辅助陈述S1计算出的轨道不符这是一个待解释的“事实”。为了解释这个偏差科学家们假设了另一个辅助陈述S2“存在一颗尚未被发现的行星”并进一步从牛顿力学、S1和S2中预测了这颗未知行星海王星的轨道这构成了一个新的、可检验的预测S3。最终S2和S3被观测证实从而圆满解释了天王星的轨道异常。这个过程清晰地展示了解释倾向如何依赖于批判倾向为了解释一个事实我们可能需要引入一个能够做出新预测的假设。在机器学习领域与之对应的正是方兴未艾的模型可解释性Explainable AI, XAI研究。我们面对一个训练好的、预测性能卓越的“黑箱”模型理论以及它产生的某些令人费解或至关重要的输出待解释的事实。我们的目标是理解模型内部的“辅助陈述”——即那些参数和计算路径——是如何协同工作最终导致了这个输出。例如在一个图像分类模型中我们可能想知道“为什么模型将这张图片分类为‘狼’而不是‘哈士奇’” 解释倾向驱动下的研究会采用各种技术来探查特征归因像LIME或SHAP这样的工具试图找出输入图片中哪些像素区域相当于“辅助陈述”中的关键部分对“狼”这个预测贡献最大。这类似于在科学中找出是哪个辅助假设对解释现象起到了决定性作用。概念激活向量研究人员尝试在模型的隐层空间中找到对应“毛茸茸”、“雪地背景”等语义概念的向量方向。如果发现“狼”的预测强烈激活了“雪地背景”概念这可能暗示模型依赖了一个有问题的“辅助陈述”将雪地与狼错误关联从而解释了其预测偏差。探针训练一个简单的分类器基于模型中间层的激活值来预测某些属性。这就像是在检验一个假设“模型在做出判断时是否隐含地使用了‘背景信息’这个辅助陈述”所有这些可解释性努力其目标都是从模型的预测行为批判倾向的产物回溯去理解和解释其内部工作机制。这个过程本身往往又需要构建新的、可检验的假设例如“模型关注了图像的左上角”并通过实验如遮挡该区域看预测是否改变来验证。这再次印证了解释依赖于批判的循环。2.3 互依性的核心没有无解释的预测也没有无预测的解释普特南的论证和我们的机器学习类比共指向一个核心结论批判倾向与解释倾向是双向必要的。一方面任何有意义的预测都预设了解释性语境。一个纯粹的、脱离任何辅助陈述的理论无法做出预测。在机器学习中一个没有输入数据的模型是哑巴。更重要的是输入数据辅助陈述必须为预测提供语义锚定。当我们用“2010年至2020年纽约房价数据”训练一个时间序列预测模型时这个数据集不仅提供了数值更隐含了“这是纽约”、“这是房价”、“这是月度数据”等一系列解释性框架。没有这些模型的输出只是一串无意义的数字。因此批判倾向做出预测的成功内在地依赖于辅助陈述所携带的解释力。另一方面任何严肃的解释都隐含着预测潜力。当我们为一个现象找到解释即构建了一套理论辅助陈述的体系这个体系本身就应该能够对相关或未来的情况做出预测。在可解释性研究中如果我们声称“模型之所以做出A决策是因为它关注了特征B”那么这个解释本身就是一个可检验的假设如果我们干预特征B模型的决策应该会改变。如果这个预测没有被证实我们的解释就需要修正。因此解释倾向的稳固性有赖于其隐含的批判性预测性成分能否被验证。在机器学习实践中这种互依性无处不在。模型训练本身就是一个以预测准确性批判倾向为优化目标的循环但训练过程中的各种设计选择数据清洗、特征工程、正则化策略都充满了对模型“应该如何解释世界”的预设解释倾向。而模型部署后的监控与迭代则是一个典型的“解释-批判”循环当模型在真实场景中预测失败批判倾向发现问题我们会启动可解释性工具解释倾向寻找原因根据找到的原因可能是数据漂移、特征误解调整模型或数据引入新的“辅助陈述”然后再次用新数据检验其预测性能回到批判倾向。3. 机器学习作为哲学思想的“测试场”3.1 从“理论负荷”到“参数负荷”认知视角的迁移科学哲学中有一个著名概念叫“观察的理论负荷性”即我们的观察并非中性总是受到背景理论的影响。在机器学习特别是深度学习的语境下我们可以提出一个平行的概念“预测的参数负荷性”。一个深度学习模型的预测完全由其参数以及架构决定。这些参数是通过在特定数据集上以特定目标函数损失函数为指导通过特定优化算法学习而来的。因此模型的任何预测都“负荷”了其训练数据中的统计规律、偏见、以及优化过程的全部历史。当我们用模型进行预测时我们不仅仅是在应用一个数学函数更是在调用一整套被编码在参数中的、关于世界的特定压缩表示和潜在假设。这为普特南的框架增添了新的维度。在科学中辅助陈述往往是科学家可以清晰陈述的假设如“忽略空气阻力”。而在机器学习中许多“辅助陈述”是以不可读、非符号化的方式分布式地编码在数百万甚至数千亿的参数中。模型可解释性研究本质上就是在尝试将这些参数负荷的、隐式的“辅助陈述”部分地转译为人类可以理解的解释性陈述。这比传统科学哲学讨论的情况更为复杂也更具挑战性。3.2 预测能力的飞跃与解释的危机当前机器学习尤其是大语言模型和基础模型的发展呈现出一个显著特点预测能力的增长远远超过了我们解释能力的增长。模型在众多任务上达到了甚至超越了人类水平但我们对其内部运作机制的理解仍然非常粗浅。这造成了一种新的张力一方面模型的预测如此成功以至于我们在许多领域开始依赖它批判倾向的胜利。另一方面我们无法充分解释其预测的依据这在医疗、司法、金融等高风险领域引发了严重的信任和伦理问题解释倾向的滞后。这种张力恰恰是普特南互依性论点的现代映照。它迫使我们去思考当一种“理论”机器学习模型的预测能力强大到我们不得不依赖它但其解释性又极度匮乏时我们该如何进行“理论选择”我们是应该等待可解释性技术跟上还是可以发展出一套基于“预测可靠性”而非“人类可理解性”的新认知规范一些研究者提出“功能性解释”或“机制性解释”的概念试图在不完全打开黑箱的情况下通过系统性的输入输出测试来刻画模型的行为规律这可以看作是在新的技术条件下对批判与解释互依关系的一种适应性探索。3.3 实践启示构建预测与解释的良性循环对于机器学习实践者而言理解这种互依性具有直接的指导意义在模型开发初期就融入解释性思维不要等到模型部署后出现问题才考虑可解释性。在特征工程阶段就思考这些特征是否具有清晰的现实意义可解释的辅助陈述。在选择模型架构时可以权衡预测性能与内在可解释性如注意力机制提供了某种程度的解释窗口。这相当于在构建“理论”时就为其配备更友好的“解释接口”。将可解释性分析作为模型验证的核心环节传统的验证主要基于测试集的预测精度批判倾向。应增加基于解释的验证例如使用对抗性样本测试模型的决策是否依赖于合理的特征检查特征归因结果是否符合领域知识。如果模型预测正确但其依赖的特征毫无道理比如通过水印识别动物种类那么这个模型的可靠性是存疑的。建立“预测-解释-迭代”的工作流将模型部署视为一个持续的学习过程。监控生产环境中的预测表现一旦发现性能下降或出现异常预测立即启动可解释性分析定位原因是数据漂移是出现了新的特征交互。根据解释结果有针对性地收集新数据、调整模型或特征然后重新训练和验证。这形成了一个以解决实际问题为导向的、批判与解释相互驱动的科学实践循环。谨慎对待“预测即解释”的诱惑随着模型预测能力越来越强有一种危险的观点是只要预测得准不需要解释。这在某些封闭、稳定、低风险的领域或许可行。但在开放、动态、高风险的现实世界中缺乏解释的预测就像一座没有设计图纸的摩天大楼即使暂时屹立也无法让人安心更难以在出问题时修复。解释倾向是对抗模型盲从、发现潜在偏见、确保技术责任的重要保障。4. 常见问题与深层思考4.1 机器学习模型是“理论”吗这个类比是否过于牵强这是一个根本性的质疑。严格来说科学理论是对世界运行规律的抽象、概括性表述通常以人类可理解的语言或数学公式呈现并追求普遍性、一致性和简洁性。而机器学习模型尤其是深度神经网络是一个在特定数据上优化得到的、高度复杂的参数化函数它可能缺乏抽象性、可读和明确的逻辑结构。然而这个类比在功能层面是富有启发性的。两者都是用于对未知情况生成预期预测和对已知现象提供系统性说明解释的认知工具。科学理论通过逻辑推导连接假设与结论机器学习模型通过前向计算连接输入与输出。更重要的是普特南框架的核心在于理论、辅助陈述与预测/事实之间的结构性关系而非理论本身的具体形态。从这个结构功能的角度看将训练好的模型视为一种特殊的、非符号化的“经验理论”或“预测装置”并将其运作纳入批判与解释的互依性框架中进行考察不仅不牵强反而能照亮两者共有的认知逻辑。4.2 如果机器学习模型最终能“涌现”出超越人类理解的理论互依性还成立吗这是一个面向未来的尖锐问题。假设我们训练出了一个超级AI它发现了一套能够完美预测物理现象的参数体系但其内部表示完全无法被人类解析即“黑箱”中的“黑箱”。在这种情况下对于AI自身而言互依性可能依然在其内部成立。它的“思考”过程可能仍然遵循某种形式的“批判”基于内部表示进行计算和“解释”调整内部连接以优化整体一致性只不过这种过程对人类来说是不可知的。对于人类与AI的交互而言互依性将以一种不对称的、代理式的方式存在。人类无法直接理解AI的“理论”参数但我们可以将其视为一个整体工具。我们为它提供问题辅助陈述它返回答案预测。这时人类的解释活动将发生转向我们从试图解释AI内部的运作机制转向解释“在何种输入条件下AI会给出何种可靠输出”这种输入-输出映射规律。我们为AI的行为建立一种“现象学”层面的解释而不追求其“本体论”层面的理解。批判倾向测试AI在各种场景下的预测与这种新的、外部的解释倾向依然会形成一种互依的验证循环。4.3 这种哲学视角对解决机器学习当前的可解释性困境有何具体帮助它主要提供的是思维框架和问题定位上的帮助而非具体的技术方案。明确了解释的层次和目标普特南的框架提醒我们解释总是相对于某个“理论”和待解释的“事实”而言的。在ML中这意味着我们要问我们是要解释整个模型的全局行为整个理论还是某个特定预测单个事实我们的解释是针对模型开发者理解算法领域专家验证逻辑还是终端用户建立信任不同的目标需要不同层次和形式的解释。强调了“辅助陈述”的关键作用将模型输入数据、特征、提示词明确视为“辅助陈述”促使我们更严肃地对待数据质量和特征工程。一个模型的偏见或错误很可能根源在于有问题的“辅助陈述”如带有偏见的数据而非模型“理论”本身。这将对问题的诊断从模型架构调整引导至对数据基础的审查。接受了解释的局部性和不完备性就像科学中我们很少能一劳永逸地“证明”一个理论而只能在其与一系列辅助陈述的结合中不断检验它一样对复杂机器学习模型的解释也可能永远是局部的、针对特定场景的、基于最佳当前假设的。这有助于我们设定合理的期望避免追求不切实际的“完全透明”转而发展一套在不确定中做出可靠决策的方法论。最终将普特南的哲学透镜对准机器学习并非为了给技术问题提供一个现成的哲学答案而是为了在算法和数据之外引入一种关于预测、解释与知识的深层反思。它让我们看到我们在构建和运用AI时不仅在从事工程技术工作也在参与一项古老的认知事业。理解这项事业的内在结构——批判与解释如何相互缠绕、彼此支撑——或许能让我们在创造越来越强大的预测工具时保持一份对理解本身的敬畏与追求。