中文版GPT2/CPM/AI原创文章生成训练系统源码

2022-12-03 发布在资源分享430

AI原创文章生成训练系统源码.png

中文版GPT2/CPM/AI原创文章生成训练系统源码，使用BERT tokenizer或BPE tokenizer。它基于来自 HuggingFace 团队Transformers非常棒的存储库。可以写诗、新闻、小说，或者训练通用语言模型。支持char级别、word级别和BPE级别。支持大型训练语料库。

中文的gpt2训练，bert tokenizer或句子的bpe模型（kangzhonghughua的的字为单位或者是分词模型或者是BPE模型（需要略微修改train.py的代码）。支持英语培训。

中文版GPT2/CPM/AI原创文章生成训练系统源码文件结构

generate.py 与 train.py 分别是生成与训练的脚本。
train_single.py 是 train.py 的扩展，可以用在一个很大的单一元素列表（如训练本斗破苍穹书籍）。
eval.py 用于评估生成模型的ppl分值。
generate_texts.py 是 generate.py 的扩展，可以用一个列表的起始关键字分别生成若干的句子并输出到文件中。
train.json 是训练样例的格式范例，可提供参考。
cache 文件夹内包若干BERT词汇表，make_vocab.py是一个协程在一个train.json语言文件上构建词汇表的脚本。 txt 是小词表。
tokenizations 文件夹里面是可以选择的三种tokenizer，包括默认的Bert Tokenizer，分词版Bert Tokenizer以及BPE Tokenizer。

脚本内包包含了样例训练与生成脚本

中文版GPT2/CPM/AI原创文章生成训练系统源码注意事项

本项目使用Bert的分词器处理中文字符。
如果不使用分词版的分词器，不需要自己先分词，分词器会帮你分词。
如果使用分词版的tokenizer，最好先使用缓存文件夹在make_vocab.py文件中建立指针对你的语料的词表。
模型需要自行运算。各位置如果完成了预定训练的话欢迎进行交流。
如果你的内部存储非常大或者语言材料比较小的的话，可以改掉train.py内部build文件内部的对应代码，不要做拆分直接接收处理语言材料。
若使用BPE Tokenizer，需要自己建立中文单词表。

AI原创文章生成训练系统训练模型下载

散文模型下载地址(使用130MB的名家散文、情感散文和散文诗歌训练所得 )

链接：https://pan.baidu.com/s/1rFxMEAHELWkDuz_h9JcZFQ?pwd=udk9

提取码：udk9

诗词模型下载地址（使用180MB的约80万首古诗词训练所得）

链接：https://pan.baidu.com/s/1fUZbNjape767-HWyX_cQSQ?pwd=zesz

提取码：zesz

对联模型下载地址（使用40MB的约70万条对联训练所得）

链接：https://pan.baidu.com/s/1KQc2ghCUcKTOlDYpUNw3gw?pwd=r5bg

提取码：r5bg

通用中文模型（使用CLUECorpusSmall语料训练所得）

链接：https://pan.baidu.com/s/1v1JgHj0r_clWgfTboW_nOw?pwd=jd3j

提取码：jd3j

中文歌词模型下载（使用140MB的约15万首中文歌词训练所得）

链接：https://pan.baidu.com/s/1IP2m-y4N523BUftXPB9yaQ?pwd=6zoj

提取码：6zoj

文言文模型下载（使用1.8GB的约300万篇文言文训练所得）

链接：https://pan.baidu.com/s/1q3DHPdOMb0vIUbGD-HkpIg?pwd=de7l

提取码：de7

声明：本站所有文章资源内容为原创撰写和借鉴网络，如需搬运请注明来源。如若本站内容侵犯了您的合法权益，可联系本站删除。

AI智能文章生成器

中文版GPT2/CPM/AI原创文章生成训练系统源码

中文版GPT2/CPM/AI原创文章生成训练系统源码文件结构

中文版GPT2/CPM/AI原创文章生成训练系统源码注意事项

AI原创文章生成训练系统训练模型下载

相关文章

热门

推荐

随机

标签

中文版GPT2/CPM/AI原创文章生成训练系统源码

中文版GPT2/CPM/AI原创文章生成训练系统源码文件结构

中文版GPT2/CPM/AI原创文章生成训练系统源码注意事项

AI原创文章生成训练系统训练模型下载

相关文章

热门

推荐

随机

标签

微信扫一扫打赏