什么是 Token
Token(词元)是 LLM 处理语言的基本单位。英文1个Token约等于4个字符或0.75个单词,中文1-2个汉字。
Token 的作用
- 计算单位:LLM输入输出按Token计数
- 费用计算:API费用按Token数量计费
- 上下文限制:上下文窗口大小以Token计算
Token 化过程
- 文本输入
- 分词器编码 → Token序列
- LLM处理Token序列
- 分词器解码 → 文本输出
理解 Token 的重要性
- 估算成本
- 优化Prompt节省费用
- 理解上下文限制
来源:菜鸟教程 | 原文链接