一段话总结本研究以秋粘虫Spodoptera frugiperda的昆虫生物防治文献为研究对象系统评估了ChatGPT-5、ScholarAI、DeepSeek三款网络基础生成式AI在文献合成中的表现并与人工深度综述结果对标发现三款AI虽能快速筛选海量文献在捕捉天敌类群粗粒度模式上表现准确且ScholarAI和DeepSeek的实验室与田间寄生数据内部一致性接近人工水平但均存在事实准确性不足、数据一致性差、易产生幻觉和数据捏造、偶发关键物种遗漏等问题对顶级优势天敌类群的枚举一致性也处于低水平目前纯机器驱动的文献合成无法替代人工完成严谨的证据合成和决策支持而结合人类监督的AI应用或能为农业生态和生物防治等资金不足的学科注入活力推动绿色农业发展未来可通过开发农业领域专用模型、结合检索增强生成RAG系统提升AI的实用价值。思维导图## **研究背景** - 生成式AI快速发展LLMs重塑多领域农业应用研究不足 - 传统人工文献综述成本高、耗时长、易过时 - 秋粘虫成全球农业害虫生物防治研究需实时证据合成 ## **研究方法** - 对比对象ChatGPT-5、ScholarAI、DeepSeek vs 2024年人工综述 - 研究对象秋粘虫天敌昆虫病原物、寄生蜂、捕食者的实验室/田间数据 - 核心步骤设计标准化提示词、提取数据、从准确性/可靠性/一致性/完整性四维度评估 - 分析方法Kruskal-Wallis检验、Spearman秩相关、线性回归、重复测量方差分析 ## **研究结果** - 数据准确性AI数据与人工偏差大ChatGPT偏差最小捕食者数据偏差存在引擎间显著差异 - 数据可靠性顶级天敌类群枚举一致性低平均一致度1.1-1.90-4量表入侵区捕食者错配最严重 - 数据一致性ScholarAI和DeepSeek内部一致性接近人工ChatGPT部分数据与人工有相关性 - 文献完整性DeepSeek筛选文献量最多ChatGPT覆盖数据库数量是其他两者2倍 ## **关键问题** - AI普遍存在幻觉、数据捏造、地理记录混淆、文献引用错误等缺陷 - AI能捕捉粗粒度模式识别稀有类群可实时筛选文献或实现动态证据合成 - 人工综述也存在部分数据可能不准确的问题 ## **研究结论与展望** - 纯AI无法替代人工现阶段仅适用于小型数据总结任务人工验证必不可少 - 人环结合的AI应用可释放科研人力助力生物防治等学科发展 - 未来开发农业专用LLMs、结合RAG系统提升AI事实准确性详细总结本研究发表于《Computers and Electronics in Agriculture》2026年第242期由多国科研团队联合开展以秋粘虫Spodoptera frugiperda这一全球重大农业害虫的生物防治全球文献为研究载体对比了三款网络基础生成式AI与人工深度综述在文献证据合成中的表现探究生成式AI在农业害虫生物防治领域的应用潜力与局限性为AI在农业科学中的合理应用提供依据。一、研究背景生成式AILLMs自2022年ChatGPT推出后快速渗透各领域在医疗领域的文献综述、临床决策中应用成熟但农业领域的对比研究和实际应用仍严重不足。传统人工系统性文献综述SLRs存在成本高、劳动密集、文献指数级增长导致易过时的问题而web-grounded型AI可实现快速数据检索和实时信息合成或能弥补该缺陷。秋粘虫原产美洲2016年入侵西非后扩散至全球热带、亚热带地区引发农药滥用其天敌昆虫病原物、寄生蜂、捕食者的生物防治研究持续推进但人工综述更新滞后亟需高效的证据合成工具2024年Wyckhuys等人的人工综述已识别秋粘虫相关天敌类群共565种46种病原物、304种寄生蜂、215种捕食者。二、研究方法本研究以ChatGPT-5订阅版ScholarAI插件、DeepSeek-R1三款web-grounded型AI为研究对象以Wyckhuys等人2024年的人工深度综述为基准于2025年8月15日-9月5日开展对比实验核心方法如下人工综述数据基础该综述基于2023年3月-10月的Web of Science核心库及补充文献提取了127篇实验室、35篇田间病原物研究86篇实验室、102篇田间寄生蜂研究64篇实验室、26篇田间捕食者研究的有效数据。标准化提示词设计针对秋粘虫5类天敌相关数据设计提示词涵盖病原物田间流行率/死亡率、寄生蜂实验室/田间寄生率、捕食者实验室捕食量/田间密度等维度限定仅分析自然种群数据。四维评估体系从数据准确性、数据可靠性、数据一致性、文献筛选完整性四个维度对AI输出进行量化评估。统计分析方法采用Kruskal-Wallis非参数检验、Spearman秩相关分析、线性回归、重复测量ANOVA等方法使用GraphPad Prism 10.6.1完成数据分析与可视化。三、核心研究结果各维度量化结果如下表所示核心结论为三款AI均存在显著缺陷ChatGPT整体表现优于ScholarAI和DeepSeekScholarAI与DeepSeek的输出一致性较高评估维度核心量化结果引擎间差异数据准确性病原物偏差-84.5%2400%寄生蜂-50%1200%捕食者-65.7%~8439%ChatGPT偏差最小捕食者数据偏差存在显著引擎间差异p0.05其余无显著差异数据可靠性顶级天敌枚举一致度1.1~1.90-4量表入侵区捕食者错配最严重天敌类群、地理区域对一致度影响显著p0.001数据一致性1. 外部ScholarAI病原物数据、ChatGPT捕食者数据与人工显著相关2. 内部ScholarAI/DeepSeek与人工接近R²分别为0.335、0.261人工R²0.373ScholarAI与DeepSeek的输出一致性显著高于与ChatGPT的一致性文献完整性DeepSeek初始筛选记录比其他两者多128%~328%ChatGPT覆盖数据库数量为其他两者2倍三款引擎在PRISMA三步骤的文献覆盖量均存在显著差异p0.001四、AI应用的核心缺陷与潜在优势一三款AI均存在的关键缺陷数据捏造与幻觉生成无文献支撑的天敌性能数据如报道Meteorus属寄生蜂对秋粘虫的实验室寄生率而相关数据尚未被记录伪造文献引用将捕食者数据错误关联至寄生蜂研究文献。地理记录混淆无法准确区分秋粘虫本土区与入侵区的天敌类群如将入侵区物种错误列为本土区顶级天敌。关键物种遗漏普遍遗漏高绩效常见天敌如本土区寄生率达55%的寄蝇Lespesia archippivora被三款AI均忽略。数据过度乐观ScholarAI和DeepSeek常高估天敌的流行率和防治效果生成不符合实际的极端数据。二AI的潜在应用优势文献筛选效率极高可在数分钟内完成数百篇文献的筛选、数据提取与制表能减少科研人员**88%-98%**的基础工作量还可捕捉人工筛选易遗漏的文献。能识别稀有类群三款AI均可筛选出地理分布受限、绩效较低的稀有天敌类群知识广度优于人工综述。内部数据一致性良好ScholarAI和DeepSeek的实验室与田间寄生数据内部一致性接近人工水平符合“实验室性能可预测田间表现”的生态学规律。实时文献处理能力可筛选2023年后发表的最新研究有望实现**“活体证据合成”**解决人工综述更新滞后的问题。五、研究结论与未来展望现阶段纯AI无法替代人工三款AI的事实准确性、数据可靠性不足仅能准确捕捉天敌类群的粗粒度模式无法用于严谨的证据合成和农业生产决策支持现阶段仅适用于数据总结等小型、聚焦性任务。人环结合是AI的合理应用模式“人类监督下的AI应用”human-in-the-loop可有效规避AI缺陷人工负责数据验证、物种筛选、决策判断AI承担基础文献处理能释放科研人力助力生物防治、农业生态等资金不足、人员短缺的学科发展。未来AI优化方向① 开发基于农业/生态领域精选语料的专用LLMs替代通用模型② 结合检索增强生成RAG系统将AI输出锚定在验证过的科学文献数据库中提升事实准确性③ 持续优化模型的分类学分辨率和地理数据识别能力。关键问题问题1三款生成式AI在秋粘虫生物防治文献合成中整体表现最优的是哪一款其核心优势体现在哪里答案整体表现最优的是ChatGPT-5。核心优势为一是数据准确性最高其输出的天敌性能/丰度数据与人工综述的偏差显著小于ScholarAI和DeepSeek平均偏差范围为-65.7%126.4%远低于后两者的-39.8%1435.0%ScholarAI和-33.7%~734.5%DeepSeek二是在捕食者相关数据上其偏差与其他两款AI存在显著统计学差异是唯一能在部分捕食者数据上与人工综述形成显著相关性的AI三是虽文献筛选量少于DeepSeek但覆盖的数据库数量为ScholarAI和DeepSeek的2倍文献来源的广度更优。问题2生成式AI在农业害虫生物防治文献合成中目前无法替代人工的核心原因是什么答案核心原因是现阶段AI存在无法规避的事实性缺陷且数据可靠性、一致性未达到严谨科研和生产决策的要求具体包括1. 普遍存在数据幻觉、捏造和错误引用生成无文献支撑的天敌数据或将数据关联至错误的参考文献2. 对顶级优势天敌类群的枚举一致性极低平均一致度仅1.1-1.90-4量表入侵区捕食者的物种错配问题尤为严重3. 无法准确区分地理区域本土区/入侵区的天敌记录还会偶发遗漏高绩效关键天敌物种4. 部分数据过度乐观、脱离实际ScholarAI和DeepSeek常高估天敌的防治效果生成不合理的极端数据。问题3在农业科学领域如何合理利用生成式AI进行文献合成和科研工作未来可通过哪些方式提升AI的应用价值答案现阶段的合理利用方式为“人类监督下的有限应用”将AI的使用限制在数据总结、文献初筛、基础数据制表等小型、聚焦性任务中始终坚持人工验证的核心环节通过“人环结合”的算法由科研人员完成文献纳入决策、数据准确性验证、虚假数据标记和最终结论判断让AI仅承担重复性、基础性的工作释放科研人力用于实验、农户推广和政策制定等核心工作。未来提升AI应用价值的核心方向1. 开发农业/生态领域专用的大语言模型基于农业科学的精选语料进行训练替代通用模型提升模型对农业专业知识的理解和处理能力2. 结合检索增强生成RAG系统将AI的输出结果锚定在经过验证的科学文献数据库中从源头减少数据幻觉和捏造提升事实准确性3. 优化模型的分类学分辨率和地理数据识别能力解决物种名称混淆、本土/入侵区记录错位的问题4. 针对农业害虫生物防治领域构建标准化的提示词体系提升AI输出的稳定性和可靠性。