AI原创文章生成训练系统源码.png

中文版GPT2/CPM/AI原创文章生成训练系统源码,使用BERT tokenizer或BPE tokenizer。它基于来自 HuggingFace 团队Transformers非常棒的存储库。可以写诗、新闻、小说,或者训练通用语言模型。支持char级别、word级别和BPE级别。支持大型训练语料库。

中文的gpt2训练,bert tokenizer或句子的bpe模型(kangzhonghughua的的字为单位或者是分词模型或者是BPE模型(需要略微修改train.py的代码)。支持英语培训。

中文版GPT2/CPM/AI原创文章生成训练系统源码文件结构

  • generate.py 与 train.py 分别是生成与训练的脚本。

  • train_single.py 是 train.py 的扩展,可以用在一个很大的单一元素列表(如训练本斗破苍穹书籍)。

  • eval.py 用于评估生成模型的ppl分值。

  • generate_texts.py 是 generate.py 的扩展,可以用一个列表的起始关键字分别生成若干的句子并输出到文件中。

  • train.json 是训练样例的格式范例,可提供参考。

  • cache 文件夹内包若干BERT词汇表,make_vocab.py是一个协程在一个train.json语言文件上构建词汇表的脚本。 txt 是小词表。

  • tokenizations 文件夹里面是可以选择的三种tokenizer,包括默认的Bert Tokenizer,分词版Bert Tokenizer以及BPE Tokenizer。

脚本 内包包含了样例训练与生成脚本

中文版GPT2/CPM/AI原创文章生成训练系统源码注意事项

  1. 本项目使用Bert的分词器处理中文字符。

  2. 如果不使用分词版的分词器,不需要自己先分词,分词器会帮你分词。

  3. 如果使用分词版的tokenizer,最好先使用缓存文件夹在make_vocab.py文件中建立指针对你的语料的词表。

  4. 模型需要自行运算。各位置如果完成了预定训练的话欢迎进行交流。

  5. 如果你的内部存储非常大或者语言材料比较小的的话,可以改掉train.py内部build文件内部的对应代码,不要做拆分直接接收处理语言材料。

  6. 若使用BPE Tokenizer,需要自己建立中文单词表。

AI原创文章生成训练系统训练模型下载

  • 散文模型下载地址(使用130MB的名家散文、情感散文和散文诗歌训练所得 )

链接:https://pan.baidu.com/s/1rFxMEAHELWkDuz_h9JcZFQ?pwd=udk9 

提取码:udk9

  • 诗词模型下载地址(使用180MB的约80万首古诗词训练所得)

链接:https://pan.baidu.com/s/1fUZbNjape767-HWyX_cQSQ?pwd=zesz 

提取码:zesz

  • 对联模型下载地址(使用40MB的约70万条对联训练所得)

链接:https://pan.baidu.com/s/1KQc2ghCUcKTOlDYpUNw3gw?pwd=r5bg 

提取码:r5bg

  • 通用中文模型(使用CLUECorpusSmall语料训练所得)

链接:https://pan.baidu.com/s/1v1JgHj0r_clWgfTboW_nOw?pwd=jd3j 

提取码:jd3j

  • 中文歌词模型下载(使用140MB的约15万首中文歌词训练所得)

链接:https://pan.baidu.com/s/1IP2m-y4N523BUftXPB9yaQ?pwd=6zoj 

提取码:6zoj

  • 文言文模型下载(使用1.8GB的约300万篇文言文训练所得)

链接:https://pan.baidu.com/s/1q3DHPdOMb0vIUbGD-HkpIg?pwd=de7l 

提取码:de7