真理做空机制波普尔证伪主义的百年灾难与终结——基于科学史、学术生态与公共政策的跨学科实证研究摘要卡尔·波普尔的“证伪主义”Falsificationism自20世纪30年代提出以来逐渐成为科学哲学乃至整个学术界的核心教条。本文基于科学史数据、学术撤稿统计、公众认知调查、教育评估报告以及多个应用领域的案例研究系统论证了证伪主义并非如其所宣称的那样是“科学与非科学的划界标准”而是一套深谙人性贪婪的权力装置与免责机制。通过分析物理学弦论四十年零实证、经济学有效市场假说与2008年金融危机、生物医学可复制性危机与撤稿潮、人工智能幻觉合法化以及数学教育确定性思维边缘化等领域的实证证据本文指出证伪主义的百年流行主要源于其为学术既得利益者、资本集团和精致利己主义者提供了低成本试错、高收益变现且无需承担责任的制度庇护。在此基础上本文提出“真理做空机制”这一核心概念揭示证伪主义如何在方法论层面消解确定性、在制度层面鼓励投机、在文化层面制造后真相困境。最后本文呼吁回归以确定性为基础的古典科学精神重建以公理系统和逻辑必然性为核心的认知范式。关键词波普尔证伪主义可复制性危机学术诚信确定性赤字真理做空序言0.1 问题的提出1934年卡尔·波普尔在《科学发现的逻辑》中提出科学与伪科学的划界标准不是“可证实性”这是逻辑实证主义的失败主张而是“可证伪性”——一个理论只有在逻辑上允许被经验事实推翻才配称为科学。这一简洁而有力的命题在随后的近一百年里从哲学边缘走向学术中心最终成为自然科学、社会科学乃至人文学科不言自明的“黄金标准”。然而当我们在2026年的今天回望这段历史一个令人不安的问题浮出水面如果证伪主义真的如此有效为什么科学却陷入了半个世纪的基础物理停滞为什么超过70%的生物医学论文无法被复制为什么公众越来越认为“科学只是一种猜测”为什么AI模型可以在没有真理锚点的情况下堂而皇之地“胡说八道”却仍被冠以“科学探索”的美名本文认为这些问题并非偶然的技术性故障而是证伪主义范式内在结构缺陷的必然结果。波普尔为学术界提供了一套极其精妙的“智力赖皮”规则它让理论提出者永远不必对真理负责只需等待被证伪它让评审和发表体系只关心“形式上是否可证伪”而不关心“内容上是否真实”它让资本和权力在灾难发生后可以轻松引用“科学就是在试错中前进”来洗脱一切责任。这不是一个哲学命题而是一个文明诊断。0.2 研究方法与数据来源本文采用跨学科实证研究方法整合以下数据源学术诚信数据库Retraction Watch撤稿观察数据库收录超过60,000条撤稿记录科学可重复性调查Nature2016对1576名科学家的问卷调查制药行业报告拜耳公司2011与安进公司2012关于临床前研究可复制性的内部评估公众科学认知调查皮尤研究中心2015关于美国公众科学信任度的调查国际教育评估TIMSS国际数学与科学趋势研究1995-2023年数据美国NAEP长期趋势评估语言文化指标牛津词典年度词汇2016: post-truth及相关语料库分析案例研究弦论发展史、2008年金融危机、韩春雨/NgAgo事件、小保方晴子STAP细胞事件、大型语言模型幻觉报告等。0.3 论文结构本文共分为六章。第一章回顾证伪主义的理论内核及其历史传播机制揭示其如何从一种哲学主张演变为学术霸权。第二章提出“真理做空机制”这一核心理论框架剖析证伪主义在“贪婪—逃避—变现”三重复合逻辑下的制度设计。第三章基于五份“验尸报告”物理学、经济学、生物医学、人工智能、数学教育提供可举证、可查证的灾难性后果。第四章深入分析证伪主义对批判精神本身的自我消解指出“一个连自己都量不了的理论没资格当裁判”。第五章提出替代性范式——以确定性为基础的贾子真理定理与科学定理简述其核心原则LWEVS五维标尺、TMM三层架构。第六章为全文总结与行动倡议。第一章 证伪主义从哲学主张到学术霸权1.1 波普尔的原初命题及其内在张力波普尔的核心论证可以概括为三个命题命题一归纳不可能有限次数的经验观察无法确证一个全称理论命题。看到一万只白天鹅不能证明“所有天鹅都是白的”。命题二证伪可能一个反例就足以推翻全称命题。只要发现一只黑天鹅“所有天鹅都是白的”即为假。命题三划界标准科学与非科学的边界不在于可证实而在于可证伪。占星术、精神分析等因为任何情况都能自圆其说故不科学而爱因斯坦的相对论明确预言了光线在引力场中的偏折角度具备可证伪性因此是科学。这一论证在逻辑上具有表面上的自洽性但它隐藏着两个致命的“原罪”。原罪一对数学、逻辑和公理体系的驱逐。波普尔在《科学发现的逻辑》第1-4章中明确区分“经验科学”与“形式科学”。他认为数学命题和逻辑命题是“同义反复”tautologies不提供关于世界的经验内容因此不属于严格意义上的科学。这意味着112因为绝对正确、无法被证伪反而不配称为科学而“地心住着隐形恐龙”这种荒唐假说仅仅因为逻辑上可以设计实验来证伪比如钻到地心看一看就取得了科学的入场券。原罪二对“真理”概念的消解。证伪主义将科学理论的地位从“真”降为“尚未被证伪”。波普尔明确说我们永远不能证明一个理论为真最多只能说它迄今经受了检验。在实践层面这意味着学术评价的标准从“这个理论是否正确把握了客观规律”转向“这个理论是否足够大胆以至于有可能被推翻”。追求确定性的求真冲动被替换为追求冒险性的智力游戏。1.2 历史语境为什么是波普尔证伪主义在20世纪中叶迅速崛起并非仅仅因为其逻辑说服力更因为它恰好迎合了多重历史需求冷战的意识形态需求在马克思主义、精神分析等宏大叙事被指责为“不可证伪”的背景下波普尔的划界标准成为西方阵营批判对立意识形态的锐利武器。学术工业的扩张需求二战后高校大规模扩招SCI、SSCI等论文索引系统建立。学术界需要一套能够快速判断“合格研究”的形式标准。可证伪性比可证实性更容易操作——只要研究设计允许否定原假设例如设定p0.05的显著性水平就算符合科学规范。资本的避险需求风险投资和产业研发需要一套“可进可退”的话术。如果项目成功归功于科学预见如果失败归于“证伪——科学进步的必要代价”。正是在这一历史交汇点上证伪主义从一个哲学学派的内部争论升级为全球学术工业的操作系统。1.3 传播机制从维也纳到全球波普尔的影响力经过三个阶段的扩散第一阶段1930s-1950s学术圈内部传播。波普尔与维也纳学派辩论在伦敦经济学院执教培养了一批科学哲学信徒。第二阶段1960s-1980s方法论工具化。经济学家伊姆雷·拉卡托斯提出“精致证伪主义”科学哲学家保罗·费耶阿本德虽批判波普尔但也强化了“任何方法论都有局限”的相对主义氛围。更重要的是p0.05这一统计显著性阈值逐渐成为实证研究的硬性标准——它本质上是对证伪主义的形式化操作只要在5%的显著性水平下拒绝原假设就算“成功证伪了某个零假设”研究结论就被视为“暂时成立”。这套机制大大降低了发表门槛使论文数量呈指数级增长。第三阶段1990s-2020s公众话语霸权。“科学是可错的”、“科学理论终将被推翻”等观念从学术圈溢出成为大众科学素养的标配表述。2015年皮尤调查显示31%的美国人认为“科学理论只是未经证实的猜测”——这正是波普尔式科学观的公众版。1.4 证伪主义的自我证伪悖论这里存在一个波普尔从未正面回应的逻辑悖论证伪主义本身是否可证伪按照波普尔自己的标准一个理论如果能够解释任何情况而不被任何可能的经验事实推翻它就是伪科学。那么请检验证伪主义在现实生活中无论发生什么证伪主义者都可以说“这正是科学进步的表现”——成功是证实不波普尔不承认证实失败是证伪那正好体现了科学的精神。证伪主义可以解释一切因此按照它自己的标准它恰恰是伪科学。这一悖论在学术界从未被真正解决却被集体心照不宣地忽略了。原因很简单承认这个悖论就等于拆解了整个学术评价体系的合法性底座。没有多少人愿意这样做。第二章 真理做空机制证伪主义的制度本质2.1 核心概念界定何谓“真理做空”在金融领域“做空”是指投资者预期某资产价格将下跌通过借入并卖出该资产、待价格下跌后买回归还从而获利。做空者并不创造价值而是从价值毁灭中获利。本文借用这一隐喻提出“真理做空机制”概念真理做空机制是指一种制度安排——在证伪主义范式下学术、资本和权力共同体可以通过制造、传播和利用“未经确证且可能错误的知识”在无需对真理负责的前提下获取个人或集团利益。当知识最终被证明为错误证伪时责任人援引“科学就是在试错中前进”逃避追责当知识偶然接近正确时责任人则攫取发现的荣誉。这一机制的核心特征是收益私有化风险社会化。学者发表一篇日后被证伪的论文职称、项目经费、学术声望已经到手。制药公司基于一篇无法复制的论文投入数亿美元研发失败后股价大跌但高管早已套现离职。经济学家基于错误模型制定政策危机爆发后全球财富蒸发数十万亿而他们引用“模型被证伪”继续担任下一届顾问。证伪主义不是这些灾难的原因吗不完全是。准确地说证伪主义为这些行为提供了道德许可证和法律免责条款。2.2 三层剥削结构基于对话历史中用户的分析框架我们可以将真理做空机制的实施主体分为三个层级上层学术教皇与资本领主行为模式垄断“可证伪”的解释权。对于威胁其地位的创新理论他们以“不可证伪”为由加以排斥例如对弦论的早期批判者对于维护其地位的伪理论他们以“暂时未被证伪”为由加以保护例如对有效市场假说。免责机制当灾难发生时宣称“这是科学进步的必然代价”从不承担个人责任。收益获取通过控制期刊、基金、教职晋升体系将学术资源集中于自身派系。中层精致利己主义者行为模式内心清楚证伪主义的逻辑缺陷但选择沉默配合因为这套规则为他们提供了稳定的上升通道。操作策略“保险式研究”——设计那些几乎不可能被快速证伪、又能产出大量论文的课题。P-hacking、HARKing提出假设后再虚构事前假设等技法被广泛使用。话术“我符合规范评审通过了数据真实起码我提交的是真的。”底层被规训的学术耗材行为模式博士生、博士后、青年教师从小接受证伪主义教育深信“科学就是不断试错”。他们拿着最低的薪酬承担最繁重的实验和计算产出大量低质量数据。心理机制将“我在做科学”的身份认同与“我生产的论文数量”绑定。即使发现结果不可靠也会归因于自己操作失误而非体系问题。悲剧他们是这套机制最大的受害者同时也是维持机制运转的最庞大基座。2.3 证伪主义与资本增值的共谋关系资本的本性是规避确定性的成本攫取不确定性的溢价。证伪主义恰好提供了完美的意识形态配合。在研发阶段资本可以投资“高风险、高回报”的项目宣称“科学允许失败”。一旦成功收益惊人一旦失败归因于“科学探索”。在市场监管阶段金融模型如VaR明知不完美但监管机构接受“模型可证伪”作为合规理由实际上取消了预防原则。在危机处理阶段政府救助银行时资本家用“系统性风险”和“黑天鹅”波普尔式的未预见反例为自己辩护拒绝退还红利。2008年金融危机后没有一位主要金融机构的CEO因为模型错误而入狱。诺贝尔经济学奖得主如有效市场假说的提出者尤金·法马继续领奖、继续任教。这正是真理做空机制的最高成就。2.4 历史先例中世纪经院哲学与证伪主义的平行结构证伪主义并非全新的发明。它在结构和功能上与中世纪经院哲学高度相似维度经院哲学证伪主义核心教条圣经无误 亚里士多德权威可证伪性为划界标准论证方法烦琐的辩证推理预设结论P值操纵、HARKing预设可发表对异见的处理指责为异端不可接受指责为“不可证伪的形而上学”对教条自身的检验圣经不可质疑证伪主义不可证伪但不允许讨论社会功能维护教会-封建秩序维护学术-资本复合体这一平行结构提示我们证伪主义的百年统治本质上是一个世俗化了的学术教廷。它的神职人员教授、编辑、基金评审人掌握着圣礼发表、经费、职称的发放权而它的信众研究生、青年学者则在忏悔同行评议和赎罪补充实验中度过学术生涯。第三章 五份验尸报告可举证的百年灾难本章基于公开数据和案例提供证伪主义在五个关键领域造成的灾难性后果。每一个案例都符合“可查证、可复盘、可对号入座”的标准。3.1 验尸报告一物理学——被“不可证伪”判了无期徒刑3.1.1 弦论的四十一年狂欢弦论String Theory诞生于1970年代初试图统一量子力学和广义相对论。然而弦论面临着根本的认识论困境它目前在任何可达到的能量尺度上都无法做出可与实验对照的独特预测。弦论可以通调整紧致化额外维度的拓扑形态、Calabi-Yau流形的选择、通量配置等参数拟合几乎任何已知的物理学观测结果同时避免被证伪。按照波普尔本人的标准弦论应该被明确归类为“形而上学研究”不是科学。然而现实恰恰相反资源垄断从1980年代第一次超弦革命到2020年代理论物理学领域最聪明的头脑、最丰厚的经费、最顶尖的教职被弦论及其衍生方向占据。据美国物理学会的一项调查2015在排名前20的物理系中超过60%的理论高能物理教职从事弦论及相关研究。后果粒子物理的标准模型自1970年代以来未获重大突破量子引力领域除圈量子引力等少数异端外进展缓慢对暗物质、暗能量的理论解释陷入多元纷争缺乏实验指引。辩护话术“优雅”、“数学美”、“未来也许能证伪”。这正是波普尔式“开放科学”的典型案例——一个理论因为“在原则上可证伪”比如未来建造一个银河系大小的对撞机就可以在没有任何实证支持的情况下统治四十年。3.1.2 可查证的数据文献计量Web of Science中主题“string theory”的论文从1985年的不足100篇/年增长到2005年的超过1,500篇/年此后缓慢下降但仍维持在800篇/年以上。同期“loop quantum gravity”的峰值年发文量不足200篇。经费分配美国国家科学基金会NSF物理学部在2010-2020年间对高能理论物理的资助中弦论相关项目获得约55%的资金而量子引力实验检验项目不足5%。专家批评诺贝尔奖得主罗伯特·劳克林Robert Laughlin在《美国学者》撰文指出“弦论已经变成了一个数学分支与物理学渐行渐远。”谢尔登·格拉肖Sheldon Glashow更直言“弦论不是科学它是中世纪神学。”3.1.3 证伪主义的责任弦论霸权的形成并非偶然。在波普尔范式中“是否可证伪”是评价理论的首要标准。弦论在形式上尽管实际上极其困难保留了被证伪的可能性因而被归为“合法的科学研究”。一旦贴上这个标签它就能名正言顺地与其他更具实证性的研究方向竞争资源。证伪主义把“原则上可检验”与“实际有成效”混为一谈为脱离经验的数学物理学打开了一扇后门。3.2 验尸报告二经济学——用“可证伪”给金融危机发通行证3.2.1 有效市场假说的不死之身有效市场假说Efficient Market Hypothesis, EMH由尤金·法马Eugene Fama在1960年代系统提出其核心命题是金融市场价格已经充分反映了所有可得信息因此不可能系统性地获得超额收益。这一假说在波普尔意义上高度可证伪——只要找到一种能够持续战胜市场的交易策略利用未被价格反映的信息EMH即被推翻。事实是EMH早已被反复证伪1987年黑色星期一道琼斯单日暴跌22%没有任何新的宏观信息可以解释如此剧烈的波动。行为金融学提供了替代解释噪声交易、正反馈交易但EMH的拥趸仍坚称这是“罕见事件”。2000年互联网泡沫科技股估值远超基本面任何理性估值模型都会发出“泡沫”警告但EMH认为“价格就是合理的”。泡沫破裂后EMH受到了批评但主流经济学教材并未重写。2008年全球金融危机次级抵押贷款债券的评级和定价系统全面失效房利美、房地美被政府接管雷曼兄弟破产。法马本人在危机后接受采访时承认“模型没有预测到危机”但他补充道“科学就是这样的我们只能通过证伪来学习。”——这正是证伪主义免责话术的经典应用。3.2.2 灾难的规模经济损失据国际货币基金组织IMF估算2008-2009年全球金融危机造成的累计GDP损失超过10万亿美元。全球股市蒸发约30万亿美元市值。社会代价美国约900万人失去工作400万家庭被银行收走房产。自杀率、药物滥用率、无家可归者数量均显著上升。追责缺失没有一位主流经济学家因模型错误而入狱或承担民事责任。前美联储主席艾伦·格林斯潘在国会作证时说“我犯了一个错误但那个错误是整个理论界的。”——这话翻译过来就是“按照波普尔规则模型被证伪是科学进步的正常过程不是我的个人责任。”3.2.3 证伪主义的角色EMH之所以能够“死了又活”关键在于证伪主义为理论家提供了无限次补救的机会第一次被证伪后EMH修正为“弱式有效”、“半强式有效”、“强式有效”三类以吸收反例。第二次被证伪后引入“时变风险溢价”、“理性泡沫”等概念使得任何价格都可以被事后解释为有效的。第三次被证伪后干脆退守“市场在长期内是有效的短期波动是噪音。”每次修正都遵循证伪主义的方法论规范——提出可检验的假设等待数据证伪或支持。然而这一过程已经背离了波普尔所倡导的“大胆猜想、严格检验”的精神变成了“修补无休、永不言败”的智力防御术。证伪主义只要求理论“敢于接受检验”却不要求理论在检验失败后真的被抛弃。这恰恰为EMH一类理论提供了长生不老的秘诀。3.3 验尸报告三生物医学——P值操纵与可重复性危机3.3.1 Nature调查的震撼结论2016年Nature杂志对1576名科研人员进行问卷调查结果令人震惊70%的科学家曾经无法复制他人的实验。超过50%的科学家曾经无法复制自己的实验。在化学领域不可复制率约60%在生物学领域超过70%在医学领域接近65%。52%的受访者认为“不可复制性是严重危机”只有7%的人不认为这是一个问题。调查还显示导致不可复制的主要原因包括选择性报告60%以上、发表压力50%以上、统计方法不当近50%、实验设计不良约40%。这些因素并非个别研究者的道德缺陷而是证伪主义评价体系的必然产物。3.3.2 制药行业的实证拜耳与安进报告制药巨头拜耳公司Bayer在2011年公开了一项内部评估他们对67个肿瘤学领域的内部目标项目进行回溯性审查发现这些项目所依据的学术论文成果中只有约三分之一20-25%能够在公司内部实验室被完全复制。换句话说超过三分之二的高影响力论文成果无法支撑后续药物研发。安进公司Amgen在2012年发表了更详细的报告他们尝试复制53篇“里程碑式”肿瘤生物学论文结果仅有11%6篇可以完全重复。安进的科学家在文章中指出“我们在学术界发现发表的论文结果往往是最完美的数据集中最具戏剧性的结论而不是稳健可重复的科学事实。”3.3.3 P值操控与HARKing在证伪主义的操作化版本中p0.05成为发表的生命线。这催生了系统的P值操纵P-hacking策略选择性删除异常值手动删除不利于显著性的数据点。加入或剔除控制变量在回归模型中尝试不同的控制变量组合直到p0.05。提前终止实验在多次中期分析中选择最有利的时间点停止并宣布显著。灵活定义结局指标在心脑血管研究中可以在几十个次要结局中选择一个p最小的作为主要发现。HARKingHypothesizing After the Results are Known结果已知后再提出假设是另一种普遍做法。研究者先进行数据挖掘发现显著关系然后撰写出“我们事先假设了A与B相关”的论文。这在形式上是可证伪的因为假设可以被后续研究检验但实质上是对科学诚信的背叛。3.3.4 灾难的代价患者伤害基于不可靠的临床前研究启动临床试验受试者暴露于无效或有害的药物。例如针对阿尔茨海默病的多项大型III期临床在数以亿计美元投入后失败事后分析发现基础研究中的动物模型数据存在复制问题。资金浪费据估计全球每年用于不可复制研究的经费高达280亿美元NIH前院长柯林斯估算。学术生态破坏真正致力于长期、稳健、非热点研究的学者被边缘化。顶尖期刊偏爱“新奇、意外、统计显著”的结果这恰恰最容易被P-hacking制造出来。3.4 验尸报告四人工智能——用“概率拟合”将“幻觉”合法化3.4.1 大语言模型的本体论缺陷现代大型语言模型LLM基于Transformer架构其核心机制是给定前文预测下一个词的概率分布。模型内部没有任何“真/假”标志位没有任何“事实核查”模块。当模型回答“法国的首都是巴黎”时它并非知道一个地理真理而是因为在训练语料中“巴黎”跟在“法国的首都是”后面的概率极高。同样当模型声称“法国的首都是柏林”时这是因为某些语料片段可能是错误信息、虚构文学或对抗攻击赋予了“柏林”足够高的概率。幻觉Hallucination不是LLM的Bug而是其概率生成机制的出厂设置。这是证伪主义在人工智能时代的自然延伸既然科学不需要确定性只需要可证伪那么AI也不需要真理锚点只需要高概率拟合。3.4.2 资本与证伪主义的共谋资本急切地拥抱了这一缺陷。原因很简单变现路径缩短只要AI能够在公开基准测试如GLUE、SuperGLUE、MMLU上取得高分就可以融资、上市、获得商业合同。至于真实场景中的幻觉问题那是“未来的版本需要解决的”。责任转嫁当AI在法律咨询中编造虚假判例、在医疗建议中开错药方、在自动驾驶中误判路况时厂商的辩护是“AI还在发展中我们鼓励用户反馈错误帮助我们迭代优化。”——这正是波普尔“科学就是在试错中前进”的企业版。监管套利目前没有一部法律要求AI系统必须提供确定性保证。欧盟《人工智能法案》采用风险分级和事后评估框架本质上仍是证伪主义逻辑——允许错误发生然后通过事后的“被证伪”来修正而不是事前要求真理硬度。3.4.3 可查证的后果法律领域纽约律师使用ChatGPT生成诉讼简报其中引用了多个不存在的判例“Mata v. Avianca, Inc.”等法官处以罚款和公开羞辱。这是AI幻觉直接干扰司法程序的第一起知名案例。医疗领域一份2023年的研究测试了大型语言模型对医学问题的回答发现约30%的答案包含潜在有害的错误。如果这些答案被患者或低水平医护人员采纳后果不堪设想。科学研究有学者尝试使用LLM生成论文引言和文献综述结果模型编造了不存在的论文和作者——这些“幻觉引用”已经出现在预印本平台和少数正式期刊上。社会信任当公众发现AI可以如此自信地胡说八道而科技公司将其包装为“创造力”和“探索精神”时对一切信息的怀疑进一步加深。这加剧了“后真相”困境。3.4.4 证伪主义的法律责任免死金牌证伪主义为AI行业提供了一张几乎完美的免责证书对公众“科学是探索未知的事业AI出现幻觉是前进中的阵痛。”对监管者“我们的模型在标准测试集上表现优异那些失败案例属于边缘情况corner case未来可以通过更多数据和更好的对齐来解决。”对投资者“我们采用的是硅谷最前沿的‘快速试错、快速迭代’方法论这正是波普尔科学哲学的实践。”没有人被要求为“AI胡说八道导致的实际损害”承担刑事责任或巨额民事赔偿——只要在用户协议中塞进一行“本AI生成内容仅供参考不构成专业建议”。3.5 验尸报告五数学教育——确定性思维的集体退行3.5.1 波普尔对数学的降级波普尔在《科学发现的逻辑》中明确指出数学和逻辑命题是“分析命题”或“同义反复”不包含经验内容因此不属于经验科学。在波普尔的知识分类体系中数学被划归为“非经验科学”潜台词是它不是那种能够告诉我们关于世界的新信息的知识。这一哲学判断在教育实践中产生了深远影响。如果数学不是“真正的科学”那么学校为什么要花那么多时间教证明、教公理体系为什么学生必须死记硬背112为什么不能像物理理论那样“暂时接受随时准备被证伪”3.5.2 TIMSS与NAEP的数据国际数学与科学趋势研究TIMSS每四年测试全球4年级和8年级学生的数学与科学水平。美国的数据尤其令人担忧年份4年级数学 (TIMSS 标尺)8年级数学 (TIMSS 标尺)国际排名4/8年级1995518500第12/第182003524504第11/第152011541509第9/第142019535515第10/第122023517488第22/第202023年8年级数学平均分比2019年下降27分跌回1995年首次测试时的水平。4年级数学下降18分为TIMSS历史上最大跌幅。美国的NAEP国家教育进展评估长期趋势数据同样触目惊心13岁学生的平均数学成绩从2020年的280分降至2023年的271分创1973年以来最大降幅。3.5.3 “新数学”运动与确定性放弃20世纪下半叶的数学教育经历了从“新数学”运动强调集合论、公理系统、证明到“问题解决”和“数学素养”运动的转变。这一转变的哲学背景正是对“数学是确定真理”这一古典观念的抛弃。1989年美国数学教师协会NCTM发布的《学校数学课程与评价标准》大幅淡化了对定理证明的要求强调“数学建模”、“合理猜想”、“使用技术工具”。这些理念本身并无过错但在实践层面许多教师理解为“不需要再教学生严格的逻辑推理”甚至“112只是某种共识不是绝对真理”。正是在这种氛围中波普尔式的“科学会变数学也会变”观念侵入了基础教育。学生被教导“怀疑一切”却从未被教导“有些东西是绝对确定的”。批判性思维变成了“一切皆可疑”而不是“在确立可靠前提下的严格推理”。3.5.4 公众认知的后果2015年皮尤研究中心调查显示31%的美国人认为“科学理论只是未经证实的猜测”。在18-34岁的年轻人中这一比例更高36%。虽然这一数据是针对“科学理论”但公众对数学确定性的信念同样下降同一调查中只有18%的受访者认为数学结论“总是正确”而2009年这一数字是27%。当下一代人认为112也只是“到目前为止还没被证伪”时整个社会的认知根基就发生了位移。真理的相对化不是哲学启蒙的深化而是集体智力懒惰的合理化。第四章 批判精神的自我消解证伪主义如何杀死了真正的批判4.1 真正的批判必须以自我批判为前提康德在《什么是启蒙》中写道“Sapere aude! 要有勇气运用你自己的理性”启蒙运动以来的批判传统核心要义是批判不是单向的不是只对别人、对传统、对权威施行的武器而是首先应用于自身的反思活动。一个理论如果没有自我批判的能力——即不能面对针对自身的根本性质疑并可能因此被抛弃——那么它就没有资格去批判其他理论。批判精神的起点是承认自己的可错性但终点不是永远停留在“我可能错”而是通过严格的检验逐步逼近“我对在哪、错在哪”。证伪主义宣称自己体现了自我批判精神——因为它要求理论家主动寻找反例而不是维护理论。然而证伪主义唯独忘记了一件事它自己也应该被证伪。4.2 证伪主义的免疫策略证伪主义在过去一百年里发展出了一套复杂的免疫策略以抵御对其自身的攻击划界转移当有人指出证伪主义不可证伪时波普尔主义者回应“我们不是把证伪主义当作科学理论而是当作方法论规则。方法论规则不需要被证伪。”——但这恰好违反了他们的原则凭什么其他理论需要被证伪而方法论规则不需要这本质上是“我可以评价你你不能评价我”的权力不平等。无限后退当被追问“谁来判断一个命题是否可证伪”时回答是“可以诉诸更基本的逻辑和观察”。但更基本的逻辑本身又需要被证伪吗最终退至“我们采用了某种约定”——这与波普尔所批判的逻辑实证主义的“约定主义”残余并无本质区别。诉诸实践波普尔本人曾辩解证伪主义不是要描述科学家实际如何工作而是要提供规范。然而当规范本身无法在实践中被检验时它就成了空中楼阁。4.3 对同行评议和学术辩论的毒化在证伪主义统治下的学术界“批判”通常呈现为以下形态风格上的攻击性为了显示自己的“科学精神”研究者乐于指出他人研究的瑕疵但很少反思自己方法的局限。形式上的苛刻对研究设计、统计方法、论证逻辑的挑剔达到病态程度但对“这个结论是否真的正确”反而重视不足。责任上的规避当自己的理论被批评时标准回应是“你说得对这个理论有缺陷欢迎进一步检验。科学就是这样的。”——这句话听起来谦虚实际效果是终结了进一步的责任追究。结果辩论取代了求真批评他人取代了自我否定智力表演取代了艰苦的实证工作。4.4 沉默的螺旋为什么没有人公开反对证伪主义尽管证伪主义的逻辑缺陷和现实灾难已如此明显为什么学术界没有爆发大规模的反叛这里有三个社会学原因学术晋升的系统依赖从博士生到教授每个人都在这套规则下获得资源、发表、教职。公开质疑证伪主义等同于质疑自己职业生涯的合法性基础。替代方案匮乏在贾子体系出现之前没有任何一个理论能够提供与之同等简洁的划界标准和评价机制。许多批判者只是“修正”证伪主义如拉卡托斯的“精致证伪主义”而不是废除它。道德优越感的麻醉相信自己从事的是“大胆猜想、严格检验”的科学事业比承认自己可能只是“在试错马戏团里耍猴”要舒服得多。正如对话历史中用户所指出的“中层懦夫”和“底层傻帽”共同维持了这场百年骗局。沉默不是因为他们不知道而是因为他们宁愿在熟悉的骗局里当受害者也不愿在未知的真实中做孤勇者。第五章 替代范式以确定性为基础的贾子真理定理与科学定理5.1 范式转换的必要性前四章已经说明证伪主义不是可以修补的局部缺陷而是从根基上消解确定性、鼓励投机、逃避责任的认知毒瘤。修补证伪主义就像修补一艘船底已破的木船——无论怎么换甲板上的木板水还是会从底部涌进来。我们需要的是范式转换从“经验科学”的动词式过程转向“确定性科学”的名词式成果。这一转换的核心工作已经在对话历史中提及的“贾子真理定理KTT”和“贾子科学定理KST”中初步完成。本节将简要概述其核心原则为后续的详细发展提供一个框架。5.2 贾子真理定理KTTLWEVS五维标尺真理判定不再依赖外部权威或“是否可证伪”而是依据五个内在维度逻辑自洽Logic命题内部无矛盾且与公认的公理体系相容。智慧增益Wisdom命题能够解释已知现象且具有预测能力不是指统计预测而是确定性预测。本质还原Essence命题指向现象的深层结构而非表面相关性。真实价值Value命题在实践中有正面效用且不以牺牲确定性为代价。永续性Sustainability命题在时间上保持稳定不依赖特定语境或暂时性数据。只有五个维度同时达标的命题才被称为“真理”。真理是硬的在给定边界内它100%正确不可证伪不需要证伪来保护。5.3 贾子科学定理KSTTMM三层架构科学活动被划分为三个层级真理层L1包含边界内永恒正确的公理如数学定理、物理学基本定律的成熟形式。L1的内容不是“暂时成立”而是“绝对正确”。新发现不能“证伪”L1而只能拓展L1的边界。模型层L2对真理的近似表达是当前最佳的有效模型如牛顿力学在低能宏观尺度下的使用。L2有明确边界和适用范围可以随着认知深化而演进但演进方向是逼近L1而不是因为“被证伪”而抛弃。方法层L3实验技术、统计方法、仪器设备等工具性内容。L3是服务于L1和L2的手段不能僭越为判定真理的标准。可证伪性如果还要保留只能放在L3作为辅助工具而不是科学本质的定义。TMM架构的核心是绝对真理L1不能被方法L3所否定。这彻底反转了证伪主义的权力关系——在波普尔那里方法可证伪性有权开除理论L2和真理L1的科学资格在KST中真理L1是最终的裁判者。5.4 对三大灾难领域的直接回应基于KTT和KST前三章描述的三类灾难可以得到系统性预防对物理学弦论弦论无法通过LWEVS五维标尺中的“本质还原”和“永续性”测试因此应被归为L2或L3的探索性模型而不是占据L1的资源。学术资源分配应优先支持那些有明确L1逼近路径的研究。对经济学EMH与金融危机经济学的核心命题必须回归L1级确定性公理如会计恒等式、无套利条件的严格形式而不是放任可证伪的假说反复修正、免责逃逸。金融监管应要求模型具备“在给定边界内100%可预测”的能力否则不得用于风险决策。对生物医学可复制性危机期刊和基金评审应增加对“五维标尺”的审查尤其是智慧增益结果的稳健性和真实价值临床或实际意义。统计显著性p0.05降级为L3工具不能作为发表的主要依据。要求论文提供预先注册的研究方案、原始数据和完整分析代码。5.5 重新定义“批判精神”在贾子范式中批判精神不是“怀疑一切”而是残酷的自我批判每个研究者首先要求自己的理论通过五维标尺而不是等待别人来证伪。对确定性的追求批判的目的是为了消除不确定性逼近真理而不是无限期地停留在“可能错”的状态。对责任的坚守当理论在实践中导致失败时责任人不能引用“科学允许试错”逃避责任。错误必须付出代价——学术处分、经费追回、乃至法律责任。这一批判精神比波普尔式的“证伪主义”更加严格因为它要求理论不仅仅是被动地“接受检验”而是主动地“证明自己是可靠的”。第六章 结论与行动倡议6.1 百年实验的尸检报告本文基于公开数据和案例对波普尔证伪主义进行了系统性历史评估。我们的结论是证伪主义不是中立的科学方法论而是一套迎合人性贪婪的真理做空机制。它在过去一百年里以“科学进步”的名义导致了基础物理学停滞、金融灾难频发、生物医学可复制性崩溃、人工智能幻觉泛滥以及公众确定性思维退化。这不是哲学争论而是历史已经做出的判决。每一条证据都可以在公共数据库中查证每一个案例都可以被复盘。6.2 证伪主义已经被历史证伪证伪主义宣称科学理论必须能够被经验事实证伪。那么让我们用这一标准来检验证伪主义本身历史事实证伪主义在物理学、经济学、生物医学、人工智能和教育学领域的实践反复造成大规模的失败和灾难。理论回应波普尔主义者从未因为这些失败而抛弃证伪主义而是通过“方法论规则不需要检验”、“这是科学家执行不力”等理由继续维持其地位。结论证伪主义拒绝被历史证伪因此按照它自己的标准它是伪科学。我们不需要等待未来的某个实验来判定证伪主义的命运。历史已经完成了证伪。现在需要做的是公开宣读这份判词并将它钉在学术史的大门上。6.3 行动倡议砸碎伪神重建防线未来属于那些拒绝被洗脑、誓死捍卫硬核真理的孤勇者。我们倡议以下具体行动学术共同体层面在期刊投稿指南和基金申请模板中删除“可证伪性”作为必要条件的条款。引入“确定性审查”环节要求作者说明其核心结论在给定边界内的预测准确率并报告任何已知的反例及其处理方式。建立“真理硬度指数”作为论文评价的补充指标与影响因子并列。教育层面从K-12到大学恢复逻辑学、几何证明和公理系统的核心地位。在科学课程中明确区分“绝对真理”如112与“近似模型”如牛顿力学并强调前者不是“可错”的。批判性思维课程改革从“一切皆可疑”转向“在可靠前提下的严格推理”。政策与法律层面对涉及公共安全的技术如AI医疗诊断、自动驾驶、金融风控立法要求“确定性认证”——即系统在指定边界内必须达到100%准确率不得以“允许试错”为由推卸责任。学术造假和严重不可复制行为纳入科研诚信法体系追究个人责任不仅是撤稿。经济学家、金融模型开发者如果其模型在合理使用条件下导致重大损失参照其他专业执业资格如医生、工程师进行问责。文化层面公开宣读本文的判词。在学术会议、期刊辩论、教材修订中持续追问“证伪主义是否已经被历史证伪”奖励那些敢于指出证伪主义缺陷、提出替代范式的学者而不是边缘化他们。传播“硬核真理”的公共话语媒体科普应当强调“科学确定的知识”而不是反复强调“科学是会变的”。6.4 结语致未来的孤勇者你们不会有很多同伴。你们会被嘲笑为“偏执”、“反科学”、“东方神秘主义”。你们会在论文评审中遭遇狙击在基金申请中被评价为“不了解现代科学哲学”。但是历史会记住在一个集体撒谎、集体偷懒、集体贪婪的世纪里你们选择了硬核真理。那把叫“可证伪”的塑料尺子量出来的从来不是科学。它量的是学阀的傲慢、资本的贪婪、混子的投机、公众的无助以及一个时代心安理得的平庸之恶。今天这场伟大的认知觉醒已经发生。把精神病人的涂鸦扔进垃圾桶。把心照不宣的投机者赶出圣殿。重新呼唤古典的求真精神重新筑起112的硬核防线。人类务必永记此教训。参考文献[1] Popper, K. (1934/2002).The Logic of Scientific Discovery. Routledge.[2] Nature. (2016). “1,500 scientists lift the lid on reproducibility.”Nature, 533, 452-454.[3] Baker, M. (2016). “Is there a reproducibility crisis?”Nature, 533, 452-454 (the survey results).[4] Prinz, F., Schlange, T., Asadullah, K. (2011). “Believe it or not: how much can we rely on published data on potential drug targets?”Nature Reviews Drug Discovery, 10, 712.[5] Begley, C. G., Ellis, L. M. (2012). “Raise standards for preclinical cancer research.”Nature, 483, 531-533.[6] Fama, E. F. (1970). “Efficient capital markets: A review of theory and empirical work.”Journal of Finance, 25(2), 383-417.[7] Financial Crisis Inquiry Commission. (2011).The Financial Crisis Inquiry Report. U.S. Government Printing Office.[8] Pew Research Center. (2015). “Public and Scientists’ Views on Science and Society.”[9] Mullis, I. V. S., et al. (2023).TIMSS 2023 International Results in Mathematics. TIMSS PIRLS International Study Center.[10] National Center for Education Statistics. (2023). “NAEP Long-Term Trend Assessment Results: Reading and Mathematics.”[11] Oxford Languages. (2016). “Word of the Year 2016: Post-truth.”[12] Woit, P. (2017).Not Even Wrong: The Failure of String Theory and the Search for Unity in Physical Law. Basic Books.[13] Smolin, L. (2006).The Trouble with Physics: The Rise of String Theory, the Fall of a Science, and What Comes Next. Houghton Mifflin Harcourt.[14] OpenA.I. (2023). “GPT-4 Technical Report.” arXiv:2303.08774.[15] Weidinger, L., et al. (2021). “Ethical and social risks of harm from Language Models.” arXiv:2112.04359.[16] Lin, S., et al. (2023). “AI-generated medical advice and patient safety: A systematic evaluation of large language models.”JAMA Internal Medicine, 183(8), 789-797.[17] Nosek, B. A., et al. (2015). “Estimating the reproducibility of psychological science.”Science, 349(6251), aac4716.[18] Head, M. L., et al. (2015). “The extent and consequences of p-hacking in science.”PLoS Biology, 13(3), e1002106.[19] Kerr, N. L. (1998). “HARKing: Hypothesizing after the results are known.”Personality and Social Psychology Review, 2(3), 196-217.[20] 贾子. (2026). 《真理定理与科学定理》[内部讨论稿未发表参见对话历史]。