NLP训练原创文章生成系统使用声明:

1、本教程只针对SEO,自媒体引流等网络营销从业人员,对行业文章大量生成有需求者使用学习。对于毕业论文、研究报告、演讲稿等专业性极强的文本生成,本系统无法满足!

2、本教程需要需要一定计算机相关基础,但绝大部分seo人员均可操作。

3、本套系统无图形化界面,无GUi封装(即无exe文件),但操作简单,绝大部分时候只需要三条命令即可(预处理、训练、生成)。

4、训练需要自行采集大量行业文章。

5、本系统训练后可批量生成文章(txt文件)及日志。

6、生成质量:文章生成质量根据训练次数、语料库等因素影响。

7、生成速度:训练速度由显卡决定,生成速度由字数、显卡等决定。

8、教程无附带指导及协助,如实在不会可1有偿远程安装。

硬件要求

训练、生成主要为GPU(显卡),内存最低16G,GPU最低显存在8G以上。

训练比较消耗显存及内存,越大越好!16+8是最低配置!

比如:1080ti11G/306012G目前性价比较高。

无需GPU也可以正常使用,但训练、生成文章的速度会非常非常非常慢!

系统要求

Win10专业版64位

需检查是否安装vc

环境配置

一、安装python

下载python

双击python-3.8.2-amd64.exe

1、勾选下面的AddPython3.8toPATH

2、点击Customizeinstallation全勾选

QQ截图20221227100132.jpg

3、点击 next

4、全勾选

QQ截图20221227100208.jpg

下面的安装路径,不能出现中文,默认即可。

5、点击下一步

6、最后

QQ截图20221227100251.jpg

点击disablepathlengthlimit(意思为禁用系统的Path长度自动限制)

7、打开命令提示符(win+r后cmd回车)或者windowspowershell

输入python,回车

QQ截图20221227100340.jpg

出现版本即可。

二、安装cuda

1、检查显卡支持的cuda版本

win+R打开cmd,输入nvidia-smi,我的显卡是3060,支持的cuda版本是11.7

2、下载cuda

在官网https://developer.nvidia.com/rdp/cudnn-archive下载cuda11.7安装包。

或者:https://developer.nvidia.com/cuda-downloads

注意1:安装包大小2.5G左右,如果官网速度慢或者打不开,或者找不到相应版本的安装

包,可百度搜索,找到对应版本号的安装包下载。

注意2:这个版本号要跟上一步的版本号对应,下载相应的版本软件

注意3:国外官网,打开非常慢,需要注册一个账号才能下载

QQ截图20221227100521.jpg

3、安装cuda

QQ截图20221227100558.jpg

一路默认即可,打开控制台win+R打开cmd,输入nvcc-V出现NVIDIA就说明安装成功了。

三、下载cudnn

1、官网地址:https://developer.nvidia.com/rdp/cudnn-archive

700M左右

QQ截图20221227100739.jpg

注意1:下载与cuda版本号相一致的cudnn版本,不要下错版本

注意2:cudnn文件包大小700M左右,如果官网速度慢或者打不开,或者找不到相应版本的安装包,可百度搜索,找到对应版本号的安装包下载。

2、cudnn解压后的文件:

QQ截图20221227100850.jpg

复制所有文件到

C:Program FilesNVIDIA GPU Computing ToolkitCUDA 11.0(版本号会不-样)

3、检查是否安装正确

分别运行下面这两个程序,注意要在 cmd 里运行,result=pass 则安装成功,否则就重新安装。

QQ截图20221227101020.jpg

1、cmd里运行方式,win+r输入cmd回车

2、输入cdC:ProgramFilesNVIDIAGPUComputingToolkitCUDA 11.0extrasdemo_suite

(注意,这个路径是你安装cudnn的路径里面的)

3、然后输入bandwidthTest.exe回车,会看到以下界面:

QQ截图20221227101112.jpg

输入:deviceQuery.exe回车,会看到以下界面

QQ截图20221227101151.jpg

出现result=pass为正确。

四、cuda和cudnn注意事项

1.版本要和显卡支持的cuda版本号对应。

3.如失败,则重新安装。

3.先卸载,卸载最好用360卸载工具,卸载的干净,卸载后重启,删除下面两个文件夹。

QQ截图20221227101359.jpg

4.然后重新安装。

五、安装环境

1、打开 window powershell

(可以再左下角 windows 图标右侧的放大镜里搜索 pow)

QQ截图20221227101516.jpg

(可以右键,固定到任务栏,以后会经常用到。)

打开 powershell

QQ截图20221227101605.jpg

2、第三方库安装

首先要升级以下 pip 版本

升级 pip 版本 命令: python -m pip install --upgrade pip

需要安装的第三方库为:

transformers==4.6.0、sentencepiece==0.1.94、torch==1.7.0、Flask==1.1.2

安装命令如下:

安装命令 pip install transformers==4.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装命令 pip install sentencepiece==0.1.94 -i https://pypi.tuna.tsinghua.edu.cn/simple

安装命令 pip install Flask==1.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

注意 1:以上三条命令,一条一条输入,会自动安装,顺序安装。

注意 2:官方服务器在国外,所以选用国内的镜像,速度会快很多,但极少情况可能出现中

断报错。重新执行即可!也可更换腾讯、阿里、豆瓣等镜像。也有其他方法加速,比如大家 可百度自行搜索下,做出选择。

注意 3:安装过程如果顺利则为全部白字,如果出现红字则为报错,可以复制下来在百度搜索解决办法。这种情况很正常,网上都能搜到解决办法。

如果执行pip install 出现Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问的错误,可以参考 https://www.cnblogs.com/CSGO-416482145/p/12589995.html

安装 torch==1.7.0 比较特殊,仔细看torch==1.7.0 无法自动下载安装,需要对应 CUDA 版本的 torch 离线安装包

打开 https://download.pytorch.org/whl/torch_stable.html

下载对应 CUDA 版本与对应 Python 版本的 torch1.7.0

最前面的 cu110 表示 cuda 11.X(版本号 11.几的都可以用),接着是 torch,再接着是版本,后面的 cp 表示 Python 版本,比如 cp38 表示 Python 3.8,接着是系统和架构。Windows 就是win。

这里千万不要下错!!!!!

下载对应的 whl 文件之后放入 c 盘然后再 powershell 里输入 pip install pip 后面跟 c:你下载文件名

如:pip install pip c: orch-1.7.0+cu110-cp38-cp38-win_amd64.whl

就会自动安装

六、训练需要安装以下命令:

pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple

以上如果全部顺利安装,则环境配置完成

系统使用

解压cpm主程序到C盘根目录,会出现一下文件

QQ截图20221227102059.jpg

主要用到的是以上三个文件

Preprocess.py用于预处理数据

Train.py用于训练预处理之后的数据

Generate.py用于生成文章

下面开始使用说明,按照步骤来

1、需要学习的文章要按照格式处理程序学习锻炼所需要的文章为txt格式,每篇文章一个txt文件

Txt文档格式要求如下

QQ截图20221227102249.jpg

第一行为标题

第二行为空

第三行开始为正文,且第三行不能为空(正文中可以有换行)

2、我们把采集好的大量文件放到一个文件夹里,比如文件全部存D盘下1

这个文件夹里

QQ截图20221227103522.jpg

3、预处理数据

进入主程序目录 右键 preprocess.py 用记事本打开,

第一条红线为我们存放文件的位置,第二条第三条可以不用动

QQ截图20221227103646.jpg

运行 preprocess.py 预处理数据

首先进入到 powershell 中,输入 cd D:CPM-main 回车 进入到主程序目录

QQ截图20221227103730.jpg

运行 preprocess.py

输入 python preprocess.py

QQ截图20221227103759.jpg

然后回车

系统就会预处理我们存放在文件里的数据速

度根据文件多少而定

处理之后会在 data 文件夹下生成 train.pkl 文件。

QQ截图20221227103904.jpg

4、训练

回到主程序,右键 train.py,用记事本打开。

QQ截图20221227104004.jpg

第一条红线

训练时,文章的长度。

第二条红线

训练次数,训练次数越多,文章生成的效果越通顺。

第三个红框

GPU的训练大小,可以理解为速度,数值越高,训练速度越快。

注意1:这里面的数值请根据显卡做评估。显卡越高端,数值可以大一些。

参考:三张1080ti

满跑为设置为50。

第四条红线

训练成功后,模型存放位置。

第五条红线

如果是全新的训练,默认为False,如果训练已经有的模型,则为模型地址。

开始训练

首先进入到 powershell 中,输入 cd D:CPM-main 回车 进入到主程序目录

运行 train.py

输入 python train.py

QQ截图20221227104826.jpg

注意:也要先进入主程序目录

回车后,程序开始根据之前的预处理数据开始训练数据

QQ截图20221227104911.jpg

训练完成之后每一轮之后都会再model里生成一个epoch+序号的文件夹,里面存着我们训练好的数据。

注意:我们生成的时候只需要用到最后一轮数据

5、生成

进入主程序目录右键generate.py用记事本打开,

QQ截图20221227105837.jpg

第一个框为生成字数。

第二个为训练好的模型存放位置。

简单修改保存即可。

接下来与预处理数据及训练一样,先进入到主程序目录。

然后运行 generate.py

输入 python generate.py

QQ截图20221227110121.jpg

回车,依次输入标题与开头(标题与开头可以相同)

QQ截图20221227110204.jpg

等待即可生成文章

QQ截图20221227110238.jpg

这是训练16轮的生成效果,建议50轮以上

6、批量生成

在主程序目录中有test.csv,将要批量生成的标题放在A列,文章开头放在B列,保存。

批量生成与 generate.py 类似在主程序目录中有批量生成.py右键用记事本打开

QQ截图20221227110425.jpg

修改生成字数及模型存放位置。

运行批量生成.py 即可

QQ截图20221227110502.jpg

生成的文件会存放在主程序目录 wenjian 这个文件夹中

QQ截图20221227110531.jpg

一篇文章为一个 txt

7、中断继续

如果数据量大,那么训练速度会很慢,会占用大量的时间这时候如果需要重启机器或者电脑突然断电,就要继续操作。 操作方式:

修改 train.py里面的代码,如图:

QQ截图20221227110628.jpg

将 False 改为'model/epoch10'

这里要注意:

1、引号别忘了。

2、比如停止前训练了 16 轮,那么在主程序 model 文件内会生成 16 个文件夹,epoch1-16,这时,我们删除前 15 个,仅保留最后一个即可,代码中设置为'model/epoch16'即可。重新运行 train.py 即可。

3、重新运行之后,model 中生成的文件夹会重新从 epoch1 开始,但是数据是延续之前第 16 轮的数据。训练的数值如 loss 等也是延续之前第 16 轮的数值。

8、新数据添加

设置方式与中断继续一样。

这里说明一下,虽然设置方式一样,

但本质不同,中断继续用的是同一个 pkl 文件,数据相同。

而新数据添加,则用的是与之前不同的 pkl 数据。

感觉家兴网络分享的《NLP训练原创文章生成系统安装使用教程》对您有所帮助,请分享给你的站长朋友们一起学习下!