一文搞懂Tokenization！_行业动态

一文搞懂Tokenization！

发布时间：2024-04-12 14:31

发布者：网络

浏览次数：

语言模型是对文本进行推理的，文本通常是字符串形式，但模型的输入只能是数字，因此需要将文本转换成数字形式。

Tokenization是自然语言处理的基本任务，根据特定需求能够把一段连续的文本序列（如句子、段落等）切分为一个字符序列（如单词、短语、字符、标点等多个单元），其中的单元称为token或词语。

根据下图所示的具体流程，首先将文本句子切分成一个个单元，然后将单元素数值化（映射为向量），再将这些向量输入到模型进行编码，最后输出到下游任务进一步得到最终的结果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

文本切分

按照文本切分的粒度可以将Tokenization分为词粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三类。

1.词粒度Tokenization

词粒度Tokenization是最直观的分词方式，即是指将文本按照词汇words进行切分。例如：

The quick brown fox jumps over the lazy dog.词粒度Tokenized结果：['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

在这个例子中，文本被切分为一个个独立的单词，每个单词作为一个token，标点符号'.'也被视为独立的token。

中文文本通常会根据照搬词典收录的标准词汇汇编或者是通过分词算法识别出的短语、成语、专有名词等进行切分。

我喜欢吃苹果。词粒度Tokenized结果：['我', '喜欢', '吃', '苹果', '。']

这段中文文本被切分成五个词语：“我”、“喜欢”、“吃”、“苹果”和句号“。”，每个词语作为一个token。

2.字符粒度Tokenization

字符粒度Tokenization将文本分割成最小的字符单元，即每个字符被视为一个单独的token。例如：

Hello, world!字符粒度Tokenized结果：['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

字符粒度Tokenization在中文中是将文本按照每个独立的汉字进行切分。

我喜欢吃苹果。字符粒度Tokenized结果：['我', '喜', '欢', '吃', '苹', '果', '。']

3.subword粒度Tokenization

subword粒度Tokenization介于词粒度和字符粒度之间，它将文本分割成介于单词和字符之间的子词（subwords）作为token。常见的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。这些方法通过统计文本数据中的子串频率，自动生成一种分词词典，能够有效应对未登录词（OOV）问题，同时保持一定的语义完整性。

helloworld

假设经过BPE算法训练后，生成的子词词典包含以下条目：

浚心时尚购物商城程序

时尚购物程序v1.01、全立体设计。此系统由3个Flash动画为主线（正式版带原文件），设计更形象，网站更有吸引力。这种设计在网店系统内绝无仅有，使您的网店与众不同。2、内置音乐播放器，简单灵活的操作即可完成设置，前台任意调用。并带详细说明文件，一看就懂。合理使用此功能，可使网站更富渲染力。3、支持多图显示，每件产品最多可以上传9张图片。4、后台功能强大，销售管理，财务管理，在线支付平台管理等功能

0 查看详情浚心时尚购物商城程序

h, e, l, o, w, r, d, hel, low, wor, orld

子词粒度Tokenized结果：

['hel', 'low', 'orld']

这里，“helloworld”被切分为三个子词“hel”，“low”，“orld”，这些都是词典中出现过的高频子串组合。这种切分方式既能处理未知词汇（如“helloworld”并非标准英语单词），又保留了一定的语义信息（子词组合起来能还原原始单词）。

在中文中，subword粒度Tokenization同样是将文本分割成介于汉字和词语之间的子词作为token。例如：

我喜欢吃苹果

假设经过BPE算法训练后，生成的子词词典包含以下条目：

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

子词粒度Tokenized结果：

['我', '喜欢', '吃', '苹果']

在这个例子中，“我喜欢吃苹果”被切分为四个子词“我”、“喜欢”、“吃”和“苹果”，这些子词均在词典中出现。虽然没有像英文子词那样将汉字进一步组合，但子词Tokenization方法在生成词典时已经考虑了高频词汇组合，如“我喜欢”和“吃苹果”。这种切分方式在处理未知词汇的同时，也保持了词语级别的语义信息。

索引化

假设已有创建好的语料库或词汇表如下。

vocabulary = {'我': 0,'喜欢': 1,'吃': 2,'苹果': 3,'。': 4}

则可以查找序列中每个token在词汇表中的索引。

indexed_tokens = [vocabulary[token] for token in token_sequence]print(indexed_tokens)

输出：[0, 1, 2, 3, 4]。

以上就是一文搞懂Tokenization！的详细内容，更多请关注其它相关文章！

# ai # 语言模型 # 切分 # 神技 # 喜欢吃 # 购物商城 # 华纳 # 一文 # 在这个 # 词汇表 # 作为一个 # 句话 # seo 考试 # seo网站站点分享 # 能耐近义词网站建设 # 摄影市场网站排名优化 # 荥阳外贸网站建设 # 博野seo优化哪家不错 # 邯郸爱采购关键词排名 # 潮州推广网站价格 # 资溪整合营销推广 # 鸣鸿发展网站建设