【词汇专栏】词元(Token):大模型的“基本货币单位“
词元Token大模型的基本货币单位你每次跟 ChatGPT 对话都在花词元。但你知道 1 个词元到底是什么吗一句话定义词元Token是大语言模型处理文本的最小单位——不是字不是词而是介于两者之间的文本碎片。官方已定名Token 词元2026 年 3 月 24 日国家数据局局长刘烈宏在中国发展高层论坛 2026 年年会上正式宣布AI 领域核心术语 Token 的中文标准译名确定为词元。次日全国科学技术名词审定委员会发布《关于发布试用人工智能领域名词 token 中文名词元的公告》正式确立这一译法结束了令牌“代币”词块等混乱译名长达多年的争议。刘烈宏在发布会上还披露了一组令人震惊的数据2024年初中国日均词元调用量为1000亿2025年底跃升至100万亿2026年3月已突破140万亿两年增长超千倍词元正在成为智能时代的新电力。为什么需要词元这个概念计算机处理文字本质上只能处理数字。问题来了怎么把人类语言变成数字最笨的方法是一个字母一个数字——但这样单词running就要占 7 个位置模型根本学不到run和running的关联。最聪明的方法是分词Tokenization把常用的词、词根、字符组合统一编成一张词典词典里每个词片段就是一个词元Token。1986年自然语言处理领域开始用token描述文本的基本处理单元。到 GPT 时代它变成了全世界最昂贵的计量单位之一。而到 2026 年词元已成为中国官方认定的标准中文译名。通俗类比词元就像乐高积木想象一本书是由乐高积木拼成的有的积木是完整的词cat、run、the有的积木是词的一部分running、unbelievable有的积木是标点、空格大模型读文字不是一个字一个字读而是一块积木一块积木读。英文示例ChatGPT is amazing! → [Chat, G, PT, is, amazing, !] 共 6 个词元中文示例中文通常一个汉字约等于1-2个词元人工智能改变世界 → [人工, 智能, 改变, 世界] 约 4 个词元技术层面词元是怎么切分的主流大模型使用BPEByte Pair Encoding字节对编码算法来分词先把所有文字拆成最小字符单元统计哪两个相邻字符最常一起出现把这对字符合并成一个新词元反复合并直到词汇表达到预设大小GPT-4 约有 100,000 个词元这样的结果是常见词the、and→ 1 个词元罕见词cryptocurrency→ 多个词元cryptocurrency中文、日文等语言 → 平均每个字 1-2 个词元因为训练数据以英文为主词元在哪里影响你1. 决定你花多少钱调用 GPT-4 API 时按词元计费2026年3月价格模型输入价格输出价格GPT-4o$2.5 / 百万词元$10 / 百万词元Claude 3.5 Sonnet$3 / 百万词元$15 / 百万词元DeepSeek-V3¥2 / 百万词元¥8 / 百万词元通义千问-Max¥5 / 百万词元¥10 / 百万词元一篇 1000 字的中文文章 ≈ 600-800 词元 ≈ 不到 $0.01使用GPT-4o或 ¥0.001使用DeepSeek价格趋势国内模型DeepSeek、通义千问的价格已降至¥1-5 / 百万词元是GPT-4的1/10到1/20。2. 决定模型能记住多少每个模型都有上下文窗口限制下一篇会详细讲本质是最多能同时处理多少词元GPT-3.54,096 词元约 3000 汉字GPT-4 Turbo128,000 词元约 10 万汉字Gemini 1.5 Pro1,000,000 词元约 75 万汉字3. 决定回复速度模型生成回复时是一个词元一个词元往外蹦的这就是为什么你看到 ChatGPT 像在打字。词元越多等的时间越长。衡量模型推理速度的指标叫做TPSTokens Per Second每秒词元数。目前主流云端模型约为 40-100 TPS本地模型视硬件从 5 到 200 TPS 不等。常见误区误区真相“1 个词元 1 个汉字”❌ 中文通常 1 个字 ≈ 1.5-2 个词元“1 个词元 1 个英文单词”❌ 常见短词可能是 1 个长词可能被切成 3-4 个“词元越多模型越聪明”❌ 词元是计量单位不是智力指标“发一条消息只消耗回复部分的词元”❌ 输入你的问题和输出模型回答都消耗词元“Token 和词元是不同的东西”❌ 两者完全等同词元是 Token 的官方中文标准译名易混淆词辨析词元 vs 参数Parameter词元是输入/输出的计量单位参数是模型内部的权重数量两者完全不同词元 vs 词Word词是语言学概念词元是工程概念一个词可能被切成多个词元分词Tokenizationvs 嵌入Embedding分词是把文字切成词元碎片嵌入是把词元变成数字向量是下一步操作在哪些地方会看到这个词ChatGPT / Claude / Gemini对话框下方有时会显示已使用 xxx 词元OpenAI API每次调用都返回usage.prompt_tokens和usage.completion_tokensHugging Face模型卡片上标注Max context length: 128K tokens本地部署工具Ollama运行日志里会显示每秒生成多少词元tokens/s国内大模型平台阿里云、百度智能云等已开始使用词元作为计费和统计单位一句话总结词元Token是大模型的货币单位——你问的每个字、AI 回的每句话都在被一片片词元计量着。如今这个词已有了官方中文名理解词元就是理解大模型如何读和写的第一步。下一篇《幻觉HallucinationAI 为什么会一本正经地胡说八道》标签#AI术语#词元#Token#大语言模型#NLP基础#Tokenization