智源:ArXiv CLI重磅开源!2亿+开放论文,即将化身科研智能体的技能包
DeepXiv 是专为智能体设计的科技文献基础设施把论文搜索、渐进式阅读、热点追踪和深度调研变成可调用、可编排、可自动化的能力。它做的不是把论文网站搬到命令行而是把科技文献本身转化为智能体可以直接消费的数据接口与技能系统。DeepXiv由智源研究院联合高校与社区开发者共同研发项目现已开源并免费开放使用。资源链接GitHubhttps://github.com/DeepXiv/deepxiv_sdkPyPIhttps://pypi.org/project/deepxiv-sdk/API 文档https://data.rag.ac.cn/api/docs技术报告https://arxiv.org/abs/2603.00084引言随着大模型智能体的快速发展由 AI 驱动的自动化科研Autonomous Research正从概念快步走进现实。从自动发现科学问题、生成研究计划到设计理论方法、开展实验探究科研智能体正在全流程、根本性地重塑科学研究的范式。然而要让智能体真正服务于科学研究一个基础性的技术瓶颈亟待解决智能体如何高效地使用科技文献智源研究院率先洞察这一核心痛点今天科技文献的利用方式仍然是为人类用户设计的。在传统模式下智能体必须通过繁琐的互联网搜索及网页解析才能获取相关论文还需进一步借助复杂的阅读工具才能从高度视觉化的论文中提取有效信息。这套基于搜索引擎Search Engine与图形用户界面GUI的基础设施与智能体的工作方式高度不符严重制约了智能体的工作效果与执行效率。换句话说我们坐拥海量开放科技文献却缺少一套面向智能体的科技文献基础设施。如果说过去的论文仅仅是给人看的那么现在论文需要兼顾给智能体看这一全新需求。一个行之有效的做法是让论文成为 CLI使智能体可以方便地获取并加以利用。因此智源研究院联合高校与开源社区攻坚突破提出让论文适配 CLI 交互、搭建专属文献基础设施的核心思路打通海量开放论文与智能体的衔接壁垒为自动化科研筑牢核心基础设施底座。DeepXivDeepXiv是面向智能体的科技文献综合性工具集其目标是让开放科技文献从人类可读升级为智能体可用。为此DeepXiv 提供三大核心能力。一、数据接入把开放科技文献变成智能体可消费的数据DeepXiv 可接入对智能体友好的数据格式如JSON / Markdown 原生支持。论文数据变得直接可读、可用智能体不再需要从复杂的 PDF 及 HTML 文件中艰难扒取信息。此外智能体还可以直接获取标题、作者、摘要、参考文献等元信息使论文利用更加便捷。同时对智能体而言真正的考验不仅是如何获取信息而是如何在有限上下文和有限推理预算下精准地利用信息。围绕这一点DeepXiv 提供了面向智能体优化的数据组织方式。如在预览Preview层面DeepXiv先快速获取论文核心信息低成本判断相关性再通过分块Chunking功能按结构或语义切分论文内容支持论文局部精读在整体阅读过程中DeepXiv还会实现渐进披露Progressive Disclosure先看少量、再按需展开避免一次性灌入整篇长文。这些设计带来的价值非常直接降低 token 消耗、提升检索与阅读效率同时支持复杂多步科研任务让智能体得以专注于真正有价值的信息。这并不是一种停留在理念层面的设计而是可以直接落到具体调用方式中。围绕一个新研究主题智能体最自然的动作不是一开始就把整篇论文全部读完而是先搜索候选文献再快速判断是否值得继续投入更多上下文预算最后只展开真正关键的部分。例如Bashpip install deepxiv-sdk # 安装工具包deepxiv search agent memory # 搜索研究主题deepxiv paper 2602.16493 --brief # 快速看摘要与要点deepxiv paper 2602.16493 --head # 查看结构与章节分布deepxiv paper 2602.16493 --section Experiments # 只读实验部分这组命令对应的正是一个非常贴近真实研究过程的文献利用路径search先找候选论文--brief预览论文核心信息用极低成本判断论文价值--head帮助智能体掌握全文结构与章节分布--section让 Agent 按需读取 Introduction、Method、Experiments 这类最有价值的内容。其结果并不是简单地少读一点而是让智能体真正具备按信息价值分配 token 预算的能力。Deepxiv 返回的论文内容是完成解析的 markdown 或 json 格式Agent 阅读无压力比如下面就是--brief和--head命令的返回内容。YAMLdeepxiv paper 2602.16493 --brief 命令返回示例MMA: Multimodal Memory AgentarXiv: 2602.16493Published: 2026-02-18T00:00:00Citations: 0PDF: https://arxiv.org/pdf/2602.16493GitHub: https://github.com/AIGeeksGroup/MMAKeywords: memory-level reliability, temporal decay, conflict-aware consensus, epistemic prudence, visual placebo effectTLDR:[research paper] MMA introduces a memory-level reliability framework that dynamically scores retrieved items using source credibility, temporal decay, and conflict-aware network consensus to mitigate overconfidence from stale or inconsistent memories. It reveals the Visual Placebo Effect—where RAG agents generate unwarranted certainty from ambiguous visual inputs due to latent biases in foundation models—and demonstrates superior performance on FEVER (35.2% lower variance), LoCoMo (higher actionable accuracy, fewer wrong answers), and MMA-Bench (41.18% Type-B accuracy vs. 0.0% baseline) under epistemic-aware evaluation protocols that reward abstention and penalize overconfidence.JSONdeepxiv paper 2602.16493 --head 命令返回示例{arxiv_id: 2602.16493,title: MMA: Multimodal Memory Agent,abstract: Long-horizon multimodal agents depend on external memory; however, similarity-based retrieval often surfaces stale, low-credibility, or conflicting items, which can trigger overconfident errors. We propose Multimodal Memory Agent (MMA), which assigns each retrieved memory item a dynamic reliability score by combining source credibility, temporal decay, and conflict-aware network consensus, and uses this signal to reweight evidence and abstain when support is insufficient. We also introduce MMA-Bench, a programmatically generated benchmark for belief dynamics with controlled speaker reliability and structured text-vision contradictions. Using this framework, we uncover the \Visual Placebo Effect\, revealing how RAG-based agents inherit latent visual biases from foundation models. On FEVER, MMA matches baseline accuracy while reducing variance by 35.2% and improving selective utility; on LoCoMo, a safety-oriented configuration improves actionable accuracy and reduces wrong answers; on MMA-Bench, MMA reaches 41.18% Type-B accuracy in Vision mode, while the baseline collapses to 0.0% under the same protocol. Code: https://github.com/AIGeeksGroup/MMA.,authors: [{misc: {},name: Yihao Lu,orgs: [School of Computer Science, Peking University]}...],token_count: 17386,...sections: [{name: Introduction,idx: 0,tldr: MMA introduces a memory-level confidence scoring framework that uses source credibility, temporal decay, and conflict-aware consensus to prioritize reliable memories and prevent retrieval traps, while introducing an incentive-aligned benchmark that rewards epistemic prudence and calibrated abstention.,token_count: 1098}...],categories: [cs.CV],publish_at: 2026-02-18T00:00:00,keywords: [memory-level reliability,temporal decay,conflict-aware consensus],tldr: [research paper] MMA introduces a memory-level reliability framework that dynamically scores retrieved items using source credibility, temporal decay, and conflict-aware network consensus to mitigate overconfidence from stale or inconsistent memories. It reveals the Visual Placebo Effect\u2014where RAG agents generate unwarranted certainty from ambiguous visual inputs due to latent biases in foundation models\u2014and demonstrates superior performance on FEVER (35.2% lower variance), LoCoMo (higher actionable accuracy, fewer wrong answers), and MMA-Bench (41.18% Type-B accuracy vs. 0.0% baseline) under epistemic-aware evaluation protocols that reward abstention and penalize overconfidence.,github_url: https://github.com/AIGeeksGroup/MMA}DeepXiv 已覆盖全量 ArXiv 数据并保持每日增量更新。与此同时DeepXiv 正在快速扩展至更多开放文献源包括 PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv 等各类 *Rxiv以及 Semantic Scholar最终建立覆盖超过 2 亿篇开放科技文献的统一智能体接入层。这种扩展并不会停留在数据收进来了这一层而是会继续沿用面向智能体的统一服务方式对外提供。例如在 PMC 场景下智能体同样可以通过类似的命令直接获取论文内容Bashdeepxiv pmc PMC544940 --head # 查看全文结构deepxiv pmc PMC544940 # 查看全文 json这意味着随着更多开放文献源被接入智能体面对的并不会是一组彼此割裂、调用方式各异的新接口而仍然是一套可复用、可迁移、可自动化编排的文献利用方式。换句话说未来无论是 ArXiv、PMC还是更多 *Rxiv 与 OA 数据源都会尽可能以一致的方法向智能体持续开放服务能力。二、一站式能力集成不只是检索更是帮智能体做事DeepXiv 自建有专属的论文搜索引擎提供优化的检索结果及可配置的搜索模式。当然仅仅把论文搜出来远远不够。基于搜索能力DeepXiv 进一步打造了更丰富的技能在问答能力层面DeepXiv 可围绕文献直接完成信息提取与理解例如论文的核心贡献是什么实验设置和对比基线是什么实现对文献的深入理解同时DeepXiv 还可实现热点追踪了解每天 / 每周 / 每月关于某一主题的热点论文有哪些在面向复杂问题时DeepXiv 还将开展深入研究例如过去三年关于 Agent Memory 的代表性工作有哪些多模态检索增强在金融场景中的公开基准及数据集有哪些DeepXiv 的技能包仍在持续扩展智能体可通过其内置 Skills 以及命令行--help机制进行感知并灵活调用。这种不只是检索更是围绕任务去调用能力的特点在实际使用时会更明显。比如一个很典型的热点追踪流程可以简单到下面这样Bashdeepxiv trending --days 7 --limit 30 --json # 抓取近期热点论文池deepxiv paper 2603.28767 --brief # 快速预览论文要点deepxiv paper 2603.28767 --popularity # 查看传播热度信号先抓出近一周最热的论文池再快速预览单篇论文内容并补上它在社交媒体上的传播热度。接下来智能体就可以顺着这条链路继续完成摘要、筛选、排序与生成周报。而如果任务是进入一个新研究主题流程同样可以非常直接Bashdeepxiv search agentic memory --limit 20 # 搜索主题相关论文deepxiv paper 2506.07398 --head # 查看全文结构deepxiv paper 2506.07398 --section Experiments # 精读关键章节先找到候选论文再查看结构最后只读取最关键的实验部分。必要时智能体还可以继续调用互联网搜索补充通用 Web 信息或者基于Semantic Scholar数据库获取论文元数据。也就是说DeepXiv 提供的不是孤立命令而是一套可被智能体连续调用的科研任务能力集。Bashdeepxiv wsearch agent memory # 调用互联网搜索deepxiv sc 161990727 # 获取 semantic scholar 元数据如果希望进一步把这些能力直接收束成一个可交付任务DeepXiv 还内置了深度调研 Agent。它可以把搜索、筛选、渐进式阅读、信息提取与归纳整理串成一条完整链路让用户不必自己手动拼接每一步调用。例如开发者可以直接让它回答最近关于 Agent Memory 的代表性工作有哪些或者过去一年有哪些值得关注的多模态检索增强论文 这使得 DeepXiv 不仅能提供底层命令更能直接承接一部分高层科研任务。 当然用户也可把 DeepXiv 直接封装成 Skills注入任意 Agent快速开始Agent 研究工作。Bashpip install deepxiv-sdk[all] # 安装完整工具依赖deepxiv agent config # 配置API keydeepxiv agent query What are the latest papers about agent memory? --verbose # 开始深度调研三、丰富的接入形式适配从智能体到开发者的全场景需求DeepXiv 并不将自己限定为一个单点工具而是提供多种接入形态满足从智能体到开发者的多层需求。首先CLI 是 DeepXiv 的核心形态。通过命令行智能体可以无缝接入文献搜索、论文获取、论文利用等全部能力并通过编排运行脚本实现更复杂的工作流。其次DeepXiv 同样提供 MCP 接入能力这意味着你可以将 DeepXiv 嵌入各类智能体开发框架让科技文献利用成为智能体的标准工具。再者对于需要深度定制工作流的开发者DeepXiv 也提供 Python SDK使之灵活集成于高度定制化的科研智能体。更重要的是基于deepxiv开发者可以非常快速地封装出一批面向具体科研任务的定制化 Skills。比如每周自动追踪某个方向的新论文、自动筛出带开源代码的工作、批量抽取实验设置与结果、生成某个主题的 baseline 表格甚至持续维护某个研究方向的动态知识库。这意味着DeepXiv 不只是提供一个可调用的工具而是在为日常科研工作流提供一层可快速复用、可持续扩展的能力底座。实战演示让 Codex 整理 30天内 Agent Memory 相关论文信息如果说前面这些能力描述的是 DeepXiv 能做什么那么更能体现它价值的其实是它如何在一次真实任务中把这些能力串起来。下面这个 demo对应的是一个非常典型、也非常高频的科研需求帮我整理最近 1 个月 agent memory 相关 paper看看都在什么数据集上跑的效果如何有没有开源。这个任务看起来像是找几篇论文总结一下但真正做起来通常会包含一整条链路先确定时间范围限定最近一个月。再围绕主题做搜索并处理噪声结果并对候选论文逐篇预览筛掉只是词面相关但主题不符的工作。在找到真正 relevant 的论文后继续查看结构与实验章节并提取 benchmark、metrics、score、code link 等关键信息最后整理成一张可交付、可继续编辑的 markdown baseline 表。如果没有面向智能体的数据与工具支持这个过程往往意味着来回切网页、翻 PDF、复制粘贴、再人工整理成表格。而在 DeepXiv 的工作流里这件事可以被拆解成一组非常自然的动作。第一步按主题与时间范围搜索候选论文首先智能体会围绕用户主题做多个近义搜索而不是只押宝一个 queryBashdeepxiv search agent memory --date-from 2026-03-02 --limit 50 --format jsondeepxiv search agentic memory --date-from 2026-03-02 --limit 50 --format jsondeepxiv search memory agents long-horizon --date-from 2026-03-02 --limit 50 --format json这样做的好处是智能体可以先尽可能召回足够多的候选论文再在后续步骤里用更低成本的方式逐步收缩范围。在这一步里它很快就能找到像AdaMem、All-Mem、D-MEM、Memex(RL)、AndroTMem、LMEB这类高相关论文同时也能识别出一些只是沾到关键词、但其实不属于 agent memory 主线的结果。第二步先用 brief 做低成本筛选搜索出来的结果没必要一上来就整篇通读。更合理的做法是先预览Bashdeepxiv paper 2603.16496 --briefdeepxiv paper 2603.19595 --briefdeepxiv paper 2603.14597 --briefdeepxiv paper 2603.18429 --brief--brief会把标题、时间、TL;DR、关键词、GitHub 链接等最关键的信息先拿出来。对智能体来说这一步的价值非常大因为它可以用极低的 token 成本完成第一轮判断比如说“这篇论文到底是不是在做 agent memory”、“它是方法论文、benchmark 论文还是更偏系统/治理架构”、“有没有 GitHub值不值得优先继续读”也正是在这一层智能体可以快速把候选论文拆成主集合和次集合避免在一堆边缘相关结果上浪费预算。第三步用 head 看结构再只读实验相关章节筛出真正 relevant 的论文之后下一步不是把全文喂进去而是先看结构再定点读取Bashdeepxiv paper 2603.16496 --headdeepxiv paper 2603.16496 --section Experimentsdeepxiv paper 2603.19595 --headdeepxiv paper 2603.19595 --section Experimentsdeepxiv paper 2603.18429 --headdeepxiv paper 2603.18429 --section Anchored State Memory这一步对应的是一个非常像人类研究者的过程比如人类研究者会先看这篇论文有哪些章节确认实验部分叫什么再只展开Experiments、Results、Evaluation这种真正有 benchmark 和 score 的内容。如果有需要再补读 Appendix 中的数据集或实验设置部分。例如在这次任务中智能体就从实验章节里提取到了很多直接可比较的信息AdaMem在LoCoMo和PERSONAMEM上评测LoCoMo 最高到44.65F1PERSONAMEM 平均准确率63.25%AndroTMem提出AndroTMem-Bench并比较 raw history、summary、ASM 三种 history 表示像Gemini-3-Flash在 ASM 下可达到AMS 59.03 / TCR 65.05Memex(RL)在改造后的ALFWorld上把任务成功率从24.22%提升到85.61%Trajectory-Informed Memory Generation在AppWorld上把 held-out 场景的SGC从50.0拉到64.3LMEB作为 benchmark 则汇总了22个数据集、193个 zero-shot retrieval 任务换句话说DeepXiv 在这里提供的不是把论文内容给出来这么简单而是让智能体可以按照先粗筛、再结构化定位、最后定点精读的方式去消费文献。第四步自动落成 markdown baseline 表当论文、数据集、指标、分数和开源状态都被提取出来后最后一步就是把它整理成结构化交付物。在这次 demo 里智能体最终把结果写成了一份 markdown 表格包含论文标题与 arXiv 链接是否开源、代码地址跑过哪些 benchmark / dataset使用了什么指标核心结果与可对比分数对论文定位的简短备注等内容。这一步很关键因为它意味着 DeepXiv 服务的不是一次性问答而是一个可以继续复用的研究资产你可以直接把 markdown 文件继续改写成调研文档、slides、周报或者作为后续项目的 baseline 起点。这个 skills 已经放到 project 中可以直接使用例如复制到 ~/.codex/skills/目录下即可在 codex 中直接唤出。这个 demo 真正说明了什么这个例子真正有意思的地方在于它并不是一个炫技式任务而是一个非常日常、非常真实的科研动作。对于研究者而言最近一个月这个方向都出了什么工作、跑了哪些数据集、效果怎么样、有没有开源本就是高频需求。而DeepXiv首次以真正贴近智能体工作流的方式完成了这一任务其搜索是结构化的无需网页解析预览是低成本的无需通读全文阅读是渐进式的仅展开关键章节提取结果面向表格与下游任务而非停留在自然语言总结最终输出更可保存、可复用、可继续扩展成为研究过程中的中间产物。这也正是 DeepXiv 想解决的核心问题不是把论文搬上命令行而是把论文真正变成智能体可以调用、筛选、阅读、分析、交付的一等对象。如果说传统论文网站服务的是人类点开页面然后自己读那么 DeepXiv 服务的则是智能体围绕科研任务主动调用文献能力并完成交付。