CLI，那个老古董，正在成为AI的“母语”

张

张建站

2026/4/17 8:05:27

10分钟阅读

一几年前如果有人问我“命令行还有未来吗”我可能会说“有的但那是开发者的世界普通人不需要。”今天如果有人再问我同样的问题我的答案变了命令行不仅是未来它正在成为AI与机器对话的母语。这不是技术怀旧而是一个正在发生的底层转变。但在展开之前我们需要先回答一个问题AI要“做事”它面前有两条路——一条是图形界面GUI一条是命令行CLI。这两条路AI走起来有什么不同二、两条路两种代价GUI为人类设计对AI却是负担图形界面的一切设计都是为了方便人类。按钮要大间距要宽颜色要醒目动画要流畅。我们用眼睛扫一眼就知道哪里可以点用鼠标一划就能定位到目标。但对AI来说GUI是一个充满不确定性的世界。想象一下让AI操作一个网页它需要“看懂”屏幕——识别哪些是按钮哪些是输入框哪些是纯文本它需要理解布局——这个按钮在哪个位置坐标是多少它需要处理动态变化——弹窗出现了怎么办页面加载慢了怎么等它需要应对异常——按钮被广告挡住了怎么办UI改版了怎么办每一步都是计算密集型、概率性的、容易出错的。一个简单的“点那个蓝色按钮”的动作在AI的世界里可能需要截图用视觉模型识别所有UI元素找到符合“蓝色”和“按钮”这两个特征的元素计算它的坐标模拟鼠标移动模拟点击等待响应判断下一步而且如果UI改版了——哪怕只是按钮换了个位置——整个过程可能就失效了。GUI的每一次交互对AI来说都是一次“阅读理解动作模拟”的复杂任务。CLI为机器设计恰好适合AI命令行正好相反。CLI从诞生的那天起就是为“精确指令”而设计的。没有歧义没有视觉干扰没有动态变化。你输入什么它就执行什么。当AI操作CLI时不需要“看懂”任何东西——只需要生成文本不需要处理坐标——命令本身就是操作不需要等待渲染——执行结果以文本形式返回不需要适应UI变化——几十年来ls还是lsgit commit还是git commit一个“删除那个文件”的操作在CLI世界里就是一行rm /path/to/file。AI生成这行文本系统执行完成。CLI的每一次交互对AI来说就是一次文本生成——而这是AI最擅长的事情。一个简单的对比维度GUICLI输入形式坐标动作点击、拖拽文本命令AI需要的能力视觉识别空间推理动作模拟文本生成不确定性高UI变化、弹窗、加载延迟低命令含义确定出错成本高点错位置可能触发意外操作低命令可审查后再执行可编程性低每个操作独立高可组合、可脚本化学习成本每个软件单独学习学会语法即可跨工具使用三、更深层的差异确定性 vs 概率性上面这些差异归根结底指向一个核心问题确定性。这是AI应用中最容易被忽视却最关键的问题。AI的文本生成是概率性的——同一个问题两次回答可能不一样这是大语言模型的天性。但系统操作需要确定性删除就是删除不能“可能删除”不能“大概删了”不能“我觉得删了”。GUI操作的每一步都充满了不确定性视觉模型可能认错按钮坐标计算可能有误差页面加载时序可能不对UI改版可能让整个流程失效而CLI提供了一个确定性的执行层。当AI生成rm -f /path/to/file时这个命令的含义是确定的。AI不需要“理解”文件系统只需要生成正确的命令操作系统会保证执行结果符合预期。这种“AI负责意图理解CLI负责精确执行”的分工是目前AI Agent落地最可靠的模式。四、CLI的另一个优势可编程性GUI的操作是离散的——点这个按钮填那个框点确定。每一步都需要人工或AI介入。但CLI是可组合、可编程的。你可以用|把多个命令串联用控制执行顺序用$()嵌套结果。你可以用一行命令完成bashfind . -name *.log -size 100M | xargs gzip | aws s3 cp - s3://my-bucket/logs/——找到所有大于100MB的日志文件压缩它们上传到S3。对AI来说这意味着它不需要每一步都停下来等确认。它可以生成一个完整的“计划”——一个脚本——然后一次性执行。只在关键节点才需要回头问一句“可以吗”这种批处理能力让AI从“一步一问”的对话模式升级为“一次规划、批量执行”的Agent模式。五、CLI是通用协议还有一个更深层的优势CLI是统一的。几乎每一个专业工具都提供了命令行接口Kubernetes有kubectl数据库有psql云服务有aws cli、gcloud版本控制有git容器有docker媒体处理有ffmpeg这意味着AI不需要为每个软件单独学习。它不需要学会“在Photoshop里点哪里可以调整曲线”它只需要学会convert命令。它不需要记住“在AWS控制台里点哪个菜单可以创建实例”它只需要学会aws ec2 run-instances。CLI是一套统一的、标准化的接口。学会它就学会了与数万个系统交互的方式。而GUI恰恰相反——每个软件都有自己的布局、图标、交互逻辑。AI需要为每个软件单独训练而且每次UI改版都可能让训练成果作废。六、GUI就没有优势吗当然不是。GUI有CLI无法替代的优势。第一GUI是可视化的。对于浏览内容、查看结构、理解信息来说GUI远胜于CLI。一张图表胜过千行日志一个文件夹图标比ls -la的输出直观得多。当AI需要向人类展示结果时GUI仍然是更好的选择。第二GUI是低门槛的。不是所有人都愿意敲命令也不是所有人都能理解“当前目录”“环境变量”这些概念。GUI的“所见即所得”降低了使用的门槛。第三GUI适合探索性操作。当你不知道某个功能叫什么、不确定某个操作是否存在时GUI的菜单和按钮提供了“可发现性”。你可以浏览、尝试、摸索。而CLI需要你知道“有什么命令”才能去使用它。所以更准确的结论是GUI是AI与人类交互的界面CLI是AI与系统交互的接口。面向人类时用GUI——直观、友好、可探索面向机器时用CLI——精确、确定、可编程AI站在中间理解人类的意图通过自然语言转化为机器的指令通过CLI然后把执行结果用人类能理解的方式呈现通过GUI或自然语言。七、一个正在发生的转变如果你关注AI基础设施的演进会发现一个趋势2023年AI能聊天了ChatGPT2024年AI能看懂了多模态、视觉识别2025-2026年AI能做事了Agent、执行而“做事”这件事目前最成熟、最可靠的方式就是通过CLI。这也是为什么你会看到Cursor、VSCode在深度集成AI让AI直接操作终端Warp、Fig等现代终端在把AI能力嵌入命令行工作流LangChain、AutoGPT等Agent框架都把命令执行作为核心能力甚至连Apple、Microsoft都在把AI集成到系统级的命令行工具里CLI这个“老古董”正在被AI重新激活。八、普通人需要关心这些吗你可能会问普通人又不敲命令行这跟我有什么关系答案是普通人不需要敲命令行但普通人会使用那些背后跑着命令行的AI。想想这些场景你对AI说“帮我把上个月的照片整理一下按日期放到文件夹里。”AI在背后生成了一串mv和mkdir命令。你对AI说“帮我把这个项目部署到服务器上。”AI在背后生成了一串scp、ssh、docker build命令。你对AI说“帮我分析一下这份日志找出所有报错。”AI在背后生成了一串grep、awk、sort命令。你不需要看到命令行甚至不需要知道它的存在。但那些命令确实被执行了那些文件确实被移动了那个服务确实被部署了。CLI正在成为AI的“内功”——用户看不见但AI离不开。九写到这里我想起一个类比。有人说CLI对AI的意义有点像汇编语言对高级语言的意义。高级语言自然语言让人类可以表达意图简洁、灵活、贴近思考。但最终要变成机器可执行的指令需要一个精确的、底层的、确定性的中间层。汇编语言曾经扮演这个角色——它是人类可读的、与机器指令一一对应的那个“翻译层”。今天CLI正在扮演类似的角色。它是人类意图和机器执行之间的那个翻译层。只不过这个翻译工作现在由AI来完成。AI学会了人类的语言然后把它翻译成机器的语言。而CLI恰好是那本字典。十几年前有人开玩笑说“命令行是给那些懒得写图形界面的人用的。”今天这句话可以改一改“命令行是给那些想让AI替他们干活的人用的。”因为当你真正想让AI帮你“做”一件事而不是仅仅“回答”一个问题时你会发现那个最可靠、最通用、最不被界面改版所影响的接口依然是那条黑底白字的命令行。它很老很朴素没有漂亮的图标没有流畅的动画。但它很确定很精确很可靠。而这恰恰是AI目前最需要的东西。——写在AI从“对话”走向“执行”的年代

3个高效技巧：用Elsevier Tracker实现投稿状态智能监控

3个高效技巧：用Elsevier Tracker实现投稿状态智能监控【免费下载链接】Elsevier-Tracker 项目地址: https://gitcode.com/gh_mirrors/el/Elsevier-Tracker 你是否也曾经历过这样的科研日常：每天打开Elsevier投稿系统，重复登录、点击…...

2026/4/17 8:07:33 阅读更多 →

3个维度解析Zotero PDF Translate的LibreTranslate离线翻译引擎集成方案

3个维度解析Zotero PDF Translate的LibreTranslate离线翻译引擎集成方案【免费下载链接】zotero-pdf-translate Translate PDF, EPub, webpage, metadata, annotations, notes to the target language. Support 20 translate services. 项目地址: https://gitcode.com/gh_mi…...

2026/4/9 2:02:34 阅读更多 →

AI大模型应用开发：AI大模型学习路线，大模型方案解决专家，看这篇就够了

一、初聊大模型 1、什么是大模型？ 大模型，通常指的是在人工智能领域中的大型预训练模型。你可以把它们想象成非常聪明的大脑，这些大脑通过阅读大量的文本、图片、声音等信息，学习到了世界的知识。这些大脑（模型&…...

2026/4/9 12:35:55 阅读更多 →

新概念英语第一册117_Tommy s breakfast

Lesson 117: Tommy’s breakfast Watch the story and answer the question What does she mean by ‘change’ in the last sentence? Key words and expressions dining room 饭厅coin 硬币 note 纸币 mouth 嘴s…...

2026/4/16 20:12:26 阅读更多 →

AI开发-python-langchain框架（--并行流程）慕

如果有多个供应商，你也可以使用 [[CC-Switch]] 来可视化管理这些API key，以及claude code 的skills。 # 多平台安装指令 curl -fsSL https://claude.ai/install.sh | bash ## Claude Code 配置 GLM Coding Plan curl -O "https://cdn.bigmodel.cn/i…...

2026/4/17 18:53:25 阅读更多 →