中文版GPT2/CPM/AI原创文章生成训练系统源码
中文版GPT2/CPM/AI原创文章生成训练系统源码,使用BERT tokenizer或BPE tokenizer。它基于来自 HuggingFace 团队Transformers非常棒的存储库。可以写诗、新闻、小说,或者训练通用语言模型。支持char级别、word级别和BPE级别。支持大型训练语料库。
中文的gpt2训练,bert tokenizer或句子的bpe模型(kangzhonghughua的的字为单位或者是分词模型或者是BPE模型(需要略微修改train.py的代码)。支持英语培训。
中文版GPT2/CPM/AI原创文章生成训练系统源码文件结构
generate.py 与 train.py 分别是生成与训练的脚本。
train_single.py 是 train.py 的扩展,可以用在一个很大的单一元素列表(如训练本斗破苍穹书籍)。
eval.py 用于评估生成模型的ppl分值。
generate_texts.py 是 generate.py 的扩展,可以用一个列表的起始关键字分别生成若干的句子并输出到文件中。
train.json 是训练样例的格式范例,可提供参考。
cache 文件夹内包若干BERT词汇表,make_vocab.py是一个协程在一个train.json语言文件上构建词汇表的脚本。 txt 是小词表。
tokenizations 文件夹里面是可以选择的三种tokenizer,包括默认的Bert Tokenizer,分词版Bert Tokenizer以及BPE Tokenizer。
脚本 内包包含了样例训练与生成脚本
中文版GPT2/CPM/AI原创文章生成训练系统源码注意事项
本项目使用Bert的分词器处理中文字符。
如果不使用分词版的分词器,不需要自己先分词,分词器会帮你分词。
如果使用分词版的tokenizer,最好先使用缓存文件夹在make_vocab.py文件中建立指针对你的语料的词表。
模型需要自行运算。各位置如果完成了预定训练的话欢迎进行交流。
如果你的内部存储非常大或者语言材料比较小的的话,可以改掉train.py内部build文件内部的对应代码,不要做拆分直接接收处理语言材料。
若使用BPE Tokenizer,需要自己建立中文单词表。
AI原创文章生成训练系统训练模型下载
散文模型下载地址(使用130MB的名家散文、情感散文和散文诗歌训练所得 )
链接:https://pan.baidu.com/s/1rFxMEAHELWkDuz_h9JcZFQ?pwd=udk9
提取码:udk9
诗词模型下载地址(使用180MB的约80万首古诗词训练所得)
链接:https://pan.baidu.com/s/1fUZbNjape767-HWyX_cQSQ?pwd=zesz
提取码:zesz
对联模型下载地址(使用40MB的约70万条对联训练所得)
链接:https://pan.baidu.com/s/1KQc2ghCUcKTOlDYpUNw3gw?pwd=r5bg
提取码:r5bg
通用中文模型(使用CLUECorpusSmall语料训练所得)
链接:https://pan.baidu.com/s/1v1JgHj0r_clWgfTboW_nOw?pwd=jd3j
提取码:jd3j
中文歌词模型下载(使用140MB的约15万首中文歌词训练所得)
链接:https://pan.baidu.com/s/1IP2m-y4N523BUftXPB9yaQ?pwd=6zoj
提取码:6zoj
文言文模型下载(使用1.8GB的约300万篇文言文训练所得)
链接:https://pan.baidu.com/s/1q3DHPdOMb0vIUbGD-HkpIg?pwd=de7l
提取码:de7