Jacky's blog
首页
  • 学习笔记

    • web
    • android
    • iOS
    • vue
  • 分类
  • 标签
  • 归档
收藏
  • tool
  • algo
  • python
  • java
  • server
  • growth
  • frida
  • blog
  • SP
  • more
GitHub (opens new window)

Jack Yang

编程; 随笔
首页
  • 学习笔记

    • web
    • android
    • iOS
    • vue
  • 分类
  • 标签
  • 归档
收藏
  • tool
  • algo
  • python
  • java
  • server
  • growth
  • frida
  • blog
  • SP
  • more
GitHub (opens new window)
  • shell

  • tool

  • 网络

  • algo

  • compute_base

  • blog

  • growth

  • java

  • C&C++

  • ai

    • base

    • tools

    • other

      • huggingFace
      • pad_token
      • token
      • rnn
      • 向量
      • BPE算法
  • secure

  • cms

  • english

  • 生活

  • 金融学

  • more

  • other
  • ai
  • other
Jacky
2025-05-13

token

让我来解释一下LLM中的token概念。

在LLM中,token是文本处理的基本单位。它不仅仅是简单的单词,而是一个更细粒度的文本分割单位。具体来说:

  1. Token的定义:
  • Token是文本被分割成的最小单位
  • 一个token可能是一个完整的单词,也可能是一个单词的一部分,或者是一个标点符号
  • 例如,"understanding"这个单词可能被分割成"under"和"standing"两个token
  1. 为什么需要Token化:
  • 减少词汇表大小:通过将单词分解成更小的单位,可以大大减少模型需要学习的词汇表大小
  • 处理未知词:当遇到训练数据中未出现的新词时,模型可以通过组合已知的token来理解
  • 提高效率:使用token而不是完整的单词可以更有效地处理不同语言的文本
  1. Token化过程:
  • 文本首先被分割成token
  • 每个token被映射到一个唯一的数字ID
  • 这些数字ID被输入到模型中进行处理
  • 模型输出预测的下一个token的ID
  • 最后将ID转换回对应的token
  1. 实际例子:
  • 句子:"I love machine learning"
  • 可能的token化结果:["I", "love", "machine", "learning"]
  • 或者:["I", "love", "machine", "learn", "ing"]
  1. 在预训练中的作用:
  • 模型通过预测序列中的下一个token来学习语言模式
  • 这种预测任务帮助模型理解语言的结构和上下文关系
  • 通过大量文本数据的训练,模型逐渐学会预测合理的下一个token

这种token化的方法使得LLM能够更灵活地处理各种语言和文本,同时保持计算效率。这也是为什么LLM能够处理未见过的单词和短语,因为它们可以基于已学习的token组合来理解和生成新的内容。

上次更新: 2025/10/09, 23:53:03
pad_token
rnn

← pad_token rnn→

最近更新
01
npx 使用指南
10-12
02
cursor
09-28
03
inspect
07-20
更多文章>
Theme by Vdoing | Copyright © 2019-2025 Jacky | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式