Understanding Tokenization Methods

date

Apr 22, 2025

slug

tokenization-llm

status

Published

分词可以有三个粒度级别：

目前主要使用子词粒度的分词，常见的有两类方法：

核心思想：从基础的小词表（ASCII字符集/256字节集）开始，不断合并共现频率最高的token对，形成新token，直到达到目标词表大小。

具体来说，每次合并token对<a, b>时，就是添加一条规则<a> <b> → <ab>。推理时，对待编码文本先分成单个字符，再逐条应用合并规则。

主要思想与BPE/BBPE相同，区别在于选择合并pair的标准。BPE/BBPE 基于频率选择，WordPiece 基于相邻 token 间的互信息选择，每次选择互信息最大的两个相邻 token 合并。token 的似然度可通过一元语言模型估计。

与BPE不同，WordPiece不存储合并规则，而是存储词表。推理时寻找词表中最长的匹配前缀子词（这也解释了为什么WordPiece在词内部使用前缀标记##），如果找不到则整个词被标记为<unknown>。

核心思想：从大词表开始（通常用BPE初始化），每次选择删除后对似然度降低最小的token，直到达到目标词表大小。

通过EM算法迭代删除冗余子词并训练 unigram language model：

最终产出子词表及 ULM，推理时用Viterbi算法求解最优分割。