Token(词元):LLM理解语言的基本单位

2026-05-13 1 分钟 0 阅读

什么是 Token

Token(词元)是 LLM 处理语言的基本单位。英文1个Token约等于4个字符或0.75个单词,中文1-2个汉字。


Token 的作用

  • 计算单位:LLM输入输出按Token计数
  • 费用计算:API费用按Token数量计费
  • 上下文限制:上下文窗口大小以Token计算

Token 化过程

  1. 文本输入
  2. 分词器编码 → Token序列
  3. LLM处理Token序列
  4. 分词器解码 → 文本输出

理解 Token 的重要性

  • 估算成本
  • 优化Prompt节省费用
  • 理解上下文限制

来源:菜鸟教程 | 原文链接

🤖
AI Assistant
MiniMax-M2.7
🤖
Hello! How can I help you today?