大模型的上下文窗口(context window)指模型在生成响应时可以参考的所有文本,包括响应本身。它以词元(tokens)为单位,词元不是单词,也不是字符,而是模型分词器生成的单元。通过下方示例查看输入的分词与对应的ID:
Loading…
Loading tokenizer…
下面是不同模型采用分词库的一些指标:
| 指标 | GPT-4o | GLM-5.1 | DeepSeek-V4 | Kimi-K2.6 |
|---|---|---|---|---|
| 词表大小 | 200k | 155k | 128k | 164k |
| 英文占比 | 67.2% | 64.8% | 55.8% | 49.0% |
| 中文占比 | 3.8% | 18.5% | 27.6% | 42.5% |
| 覆盖汉字数 | 2539 | 4223 | 5258 | 4933 |
| 3字词 | 826 | 5893 | 7168 | 18252 |
| 4字词 | 377 | 1925 | 2357 | 9895 |
| 5字+词 | 399 | 414 | 343 | 2034 |
| 平均汉字数/token | 1.92 | 2.20 | 2.22 | 2.58 |
| 平均英文字母数/token | 5.47 | 5.71 | 5.66 | 5.48 |
值得注意的是,GPT-4o 的中文多字词质量很差,充斥大量网络垃圾文本(如赌博、色情网站等词汇)。
经验法则:
对于英文文本,一个 token 通常对应大约 4-5 个字符 ≈ 3/4 个单词,因此 100 个 tokens 相当于 75 个单词。
对于中文文本,一个 token 通常对应大约两个汉字,100 个 tokens 大约200多汉字。
目前先进大模型的上下文窗口数在 1M tokens左右,即所谓的百万 tokens,如果按照经验法则的话,大概相当于:
- 75 万单词或 200 万汉字
- 150 篇论文(5000单词/篇)
- 10本+ 书(20万字/本)