离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千
发布时间:2024-08-05 19:42
发布者:网络
浏览次数:没工作也要「卷」。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

7986972512239665
图源:https://twitter.com/ZainHasan6/status/1758727767204495367

图源:https://twitter.com/fouriergalois/status/1758775281391677477
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情

minbpe/base.py:实现 Tokenizer 类,是基类。它包含了训练、编码和解码存根、保存 / 加载功能,还有一些常见的实用功能。不过,该类不应直接使用,而是要继承。 minbpe/basic.py:实现 BasicTokenizer,这是直接在文本上运行的 BPE 算法的最简单实现。 minbpe/regex.py:实现 RegexTokenizer,它通过正则表达式模式进一步拆分输入文本。作为一个预处理阶段,它在分词之前按类别(例如字母、数字、标点符号)拆分输入文本。这确保不会发生跨类别边界的合并。它是在 GPT-2 论文中引入的,并继续在 GPT-4 中使用。 minbpe/gpt4.py:实现 GPT4Tokenizer。此类是 RegexTokenizer 的轻量级封装,它精确地复现了 tiktoken(OpenAI 开源分词神器)库中 GPT-4 的分词。封装处理有关恢复 tokenizer 中精确合并的一些细节,并处理一些 1 字节的 token 排列。需要注意,奇偶校验尚未完全完成,没有处理特殊的 token。
from minbpe import BasicTokenizertokenizer = BasicTokenizer()text = "aaabdaaabac"tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 mergesprint(tokenizer.encode(text))# [258, 100, 258, 97, 99]print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabactokenizer.s*e("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)text = "hello123!!!? (안녕하세요!) ?"# tiktokenimport tiktokenenc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]# oursfrom minbpe import GPT4Tokenizertokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]
《闲下来的Andrej Karpathy录了个课程:保证学会,你听不懂我吃鞋》 《特斯拉前AI总监教你手搓GPT大模型,教学视频已出》 《OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星》 《OpenAI内斗时,Karpathy在录视频:《大型语言模型入门》上线》
以上就是离开OpenAI待业的Karpathy做了个大模型新项目,Star量一日破千的详细内容,更多请关注其它相关文章!
# openai
# 产业
# minbpe
# python
# git
# 排列
# llama
# follow
# sora
# type
# 开源
# 正则表达式
# 库中
# 这是
# 就会
# 无事
# 是在
# 那就
# 也要
# 暗讽
# 广州企业网站推广建设
# 网站建设摘要文案范文
# 德州网站推广方式
# 武威品牌网站建设
# seo排名和网站改版
# 宁乡快手营销推广哪里买
# 专业装修建设网站
# 甘肃网站建设的公司排名
# 延吉网站优化哪家好
# 实用的网络营销推广




