LLM context window and tokens

大模型的上下文窗口（context window）指模型在生成响应时可以参考的所有文本，包括响应本身。它以词元（tokens）为单位，词元不是单词，也不是字符，而是模型分词器生成的单元。通过下方示例查看输入的分词与对应的ID：

Loading…

Tokens Token IDs

Loading tokenizer…

下面是不同模型采用分词库的一些指标：

指标	GPT-4o	GLM-5.1	DeepSeek-V4	Kimi-K2.6
词表大小	200k	155k	128k	164k
英文占比	67.2%	64.8%	55.8%	49.0%
中文占比	3.8%	18.5%	27.6%	42.5%
覆盖汉字数	2539	4223	5258	4933
3字词	826	5893	7168	18252
4字词	377	1925	2357	9895
5字+词	399	414	343	2034
平均汉字数/token	1.92	2.20	2.22	2.58
平均英文字母数/token	5.47	5.71	5.66	5.48

值得注意的是，GPT-4o 的中文多字词质量很差，充斥大量网络垃圾文本（如赌博、色情网站等词汇）。

经验法则：

对于英文文本，一个 token 通常对应大约 4-5 个字符 ≈ 3/4 个单词，因此 100 个 tokens 相当于 75 个单词。

对于中文文本，一个 token 通常对应大约两个汉字，100 个 tokens 大约200多汉字。

自2023年来，模型的上下文窗口经历了从数千 → 数十万 → 百万 tokens 的演变，其中 Gemini 3 Pro，Llama 4 Scout 甚至达到了千万层级。目前先进大模型的上下文窗口数在 1M tokens左右，如果按照经验法则的话，大概相当于：

75 万单词或 200 万汉字
150 篇论文（5000单词/篇）
10本+ 书（20万字/本）

更大的上下文窗口允许模型处理更复杂、更长的提示，但上下文并非越多越好。一方面，研究发现模型的“宣称的窗口大小”和其“有效利用能力”之间存在差距 —— 当相关信息出现在输入的开头或结尾时，模型表现最佳，而位于中间的信息则往往利用不足（Lost in the Middle）。另一方面，随着上下文中词元数量增加，模型的准确率和召回率会逐步下降，即所谓的 Context Rot 现象。