NLP训练原创文章生成系统安装使用教程
NLP训练原创文章生成系统使用声明:
1、本教程只针对SEO,自媒体引流等网络营销从业人员,对行业文章大量生成有需求者使用学习。对于毕业论文、研究报告、演讲稿等专业性极强的文本生成,本系统无法满足!
2、本教程需要需要一定计算机相关基础,但绝大部分seo人员均可操作。
3、本套系统无图形化界面,无GUi封装(即无exe文件),但操作简单,绝大部分时候只需要三条命令即可(预处理、训练、生成)。
4、训练需要自行采集大量行业文章。
5、本系统训练后可批量生成文章(txt文件)及日志。
6、生成质量:文章生成质量根据训练次数、语料库等因素影响。
7、生成速度:训练速度由显卡决定,生成速度由字数、显卡等决定。
8、教程无附带指导及协助,如实在不会可1有偿远程安装。
硬件要求
训练、生成主要为GPU(显卡),内存最低16G,GPU最低显存在8G以上。
训练比较消耗显存及内存,越大越好!16+8是最低配置!
比如:1080ti11G/306012G目前性价比较高。
无需GPU也可以正常使用,但训练、生成文章的速度会非常非常非常慢!
系统要求
Win10专业版64位
需检查是否安装vc
环境配置
一、安装python
双击python-3.8.2-amd64.exe
1、勾选下面的AddPython3.8toPATH
2、点击Customizeinstallation全勾选
3、点击 next
4、全勾选
下面的安装路径,不能出现中文,默认即可。
5、点击下一步
6、最后
点击disablepathlengthlimit(意思为禁用系统的Path长度自动限制)
7、打开命令提示符(win+r后cmd回车)或者windowspowershell
输入python,回车
出现版本即可。
二、安装cuda
1、检查显卡支持的cuda版本
win+R打开cmd,输入nvidia-smi,我的显卡是3060,支持的cuda版本是11.7
2、下载cuda
在官网https://developer.nvidia.com/rdp/cudnn-archive下载cuda11.7安装包。
或者:https://developer.nvidia.com/cuda-downloads
注意1:安装包大小2.5G左右,如果官网速度慢或者打不开,或者找不到相应版本的安装
包,可百度搜索,找到对应版本号的安装包下载。
注意2:这个版本号要跟上一步的版本号对应,下载相应的版本软件
注意3:国外官网,打开非常慢,需要注册一个账号才能下载
3、安装cuda
一路默认即可,打开控制台win+R打开cmd,输入nvcc-V出现NVIDIA就说明安装成功了。
三、下载cudnn
1、官网地址:https://developer.nvidia.com/rdp/cudnn-archive
700M左右
注意1:下载与cuda版本号相一致的cudnn版本,不要下错版本
注意2:cudnn文件包大小700M左右,如果官网速度慢或者打不开,或者找不到相应版本的安装包,可百度搜索,找到对应版本号的安装包下载。
2、cudnn解压后的文件:
复制所有文件到
C:Program FilesNVIDIA GPU Computing ToolkitCUDA11.0(版本号会不-样)
3、检查是否安装正确
分别运行下面这两个程序,注意要在 cmd 里运行,result=pass 则安装成功,否则就重新安装。
1、cmd里运行方式,win+r输入cmd回车
2、输入cdC:ProgramFilesNVIDIAGPUComputingToolkitCUDA11.0extrasdemo_suite
(注意,这个路径是你安装cudnn的路径里面的)
3、然后输入bandwidthTest.exe回车,会看到以下界面:
输入:deviceQuery.exe回车,会看到以下界面
出现result=pass为正确。
四、cuda和cudnn注意事项
1.版本要和显卡支持的cuda版本号对应。
3.如失败,则重新安装。
3.先卸载,卸载最好用360卸载工具,卸载的干净,卸载后重启,删除下面两个文件夹。
4.然后重新安装。
五、安装环境
1、打开 window powershell
(可以再左下角 windows 图标右侧的放大镜里搜索 pow)
(可以右键,固定到任务栏,以后会经常用到。)
打开 powershell
2、第三方库安装
首先要升级以下 pip 版本
升级 pip 版本 命令: python -m pip install --upgrade pip
需要安装的第三方库为:
transformers==4.6.0、sentencepiece==0.1.94、torch==1.7.0、Flask==1.1.2
安装命令如下:
安装命令 pip install transformers==4.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
安装命令 pip install sentencepiece==0.1.94 -i https://pypi.tuna.tsinghua.edu.cn/simple
安装命令 pip install Flask==1.1.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
注意 1:以上三条命令,一条一条输入,会自动安装,顺序安装。
注意 2:官方服务器在国外,所以选用国内的镜像,速度会快很多,但极少情况可能出现中
断报错。重新执行即可!也可更换腾讯、阿里、豆瓣等镜像。也有其他方法加速,比如大家 可百度自行搜索下,做出选择。
注意 3:安装过程如果顺利则为全部白字,如果出现红字则为报错,可以复制下来在百度搜索解决办法。这种情况很正常,网上都能搜到解决办法。
如果执行pip install 出现Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问的错误,可以参考 https://www.cnblogs.com/CSGO-416482145/p/12589995.html
安装 torch==1.7.0 比较特殊,仔细看torch==1.7.0 无法自动下载安装,需要对应 CUDA 版本的 torch 离线安装包
打开 https://download.pytorch.org/whl/torch_stable.html
下载对应 CUDA 版本与对应 Python 版本的 torch1.7.0
最前面的 cu110 表示 cuda 11.X(版本号 11.几的都可以用),接着是 torch,再接着是版本,后面的 cp 表示 Python 版本,比如 cp38 表示 Python 3.8,接着是系统和架构。Windows 就是win。
这里千万不要下错!!!!!
下载对应的 whl 文件之后放入 c 盘然后再 powershell 里输入 pip install pip 后面跟 c:你下载文件名
如:pip install pip c: orch-1.7.0+cu110-cp38-cp38-win_amd64.whl
就会自动安装
六、训练需要安装以下命令:
pip install scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
以上如果全部顺利安装,则环境配置完成
系统使用
解压cpm主程序到C盘根目录,会出现一下文件
主要用到的是以上三个文件
Preprocess.py用于预处理数据
Train.py用于训练预处理之后的数据
Generate.py用于生成文章
下面开始使用说明,按照步骤来
1、需要学习的文章要按照格式处理程序学习锻炼所需要的文章为txt格式,每篇文章一个txt文件
Txt文档格式要求如下
第一行为标题
第二行为空
第三行开始为正文,且第三行不能为空(正文中可以有换行)
2、我们把采集好的大量文件放到一个文件夹里,比如文件全部存D盘下1
这个文件夹里
3、预处理数据
进入主程序目录 右键 preprocess.py 用记事本打开,
第一条红线为我们存放文件的位置,第二条第三条可以不用动
运行 preprocess.py 预处理数据
首先进入到 powershell 中,输入 cd D:CPM-main 回车 进入到主程序目录
运行 preprocess.py
输入 python preprocess.py
然后回车
系统就会预处理我们存放在文件里的数据速
度根据文件多少而定
处理之后会在 data 文件夹下生成 train.pkl 文件。
4、训练
回到主程序,右键 train.py,用记事本打开。
第一条红线
训练时,文章的长度。
第二条红线
训练次数,训练次数越多,文章生成的效果越通顺。
第三个红框
GPU的训练大小,可以理解为速度,数值越高,训练速度越快。
注意1:这里面的数值请根据显卡做评估。显卡越高端,数值可以大一些。
参考:三张1080ti
满跑为设置为50。
第四条红线
训练成功后,模型存放位置。
第五条红线
如果是全新的训练,默认为False,如果训练已经有的模型,则为模型地址。
开始训练
首先进入到 powershell 中,输入 cd D:CPM-main 回车 进入到主程序目录
运行 train.py
输入 python train.py
注意:也要先进入主程序目录
回车后,程序开始根据之前的预处理数据开始训练数据
训练完成之后每一轮之后都会再model里生成一个epoch+序号的文件夹,里面存着我们训练好的数据。
注意:我们生成的时候只需要用到最后一轮数据
5、生成
进入主程序目录右键generate.py用记事本打开,
第一个框为生成字数。
第二个为训练好的模型存放位置。
简单修改保存即可。
接下来与预处理数据及训练一样,先进入到主程序目录。
然后运行 generate.py
输入 python generate.py
回车,依次输入标题与开头(标题与开头可以相同)
等待即可生成文章
这是训练16轮的生成效果,建议50轮以上
6、批量生成
在主程序目录中有test.csv,将要批量生成的标题放在A列,文章开头放在B列,保存。
批量生成与 generate.py 类似在主程序目录中有批量生成.py右键用记事本打开
修改生成字数及模型存放位置。
运行批量生成.py 即可
生成的文件会存放在主程序目录 wenjian 这个文件夹中
一篇文章为一个 txt
7、中断继续
如果数据量大,那么训练速度会很慢,会占用大量的时间这时候如果需要重启机器或者电脑突然断电,就要继续操作。 操作方式:
修改 train.py里面的代码,如图:
将 False 改为'model/epoch10'
这里要注意:
1、引号别忘了。
2、比如停止前训练了 16 轮,那么在主程序 model 文件内会生成 16 个文件夹,epoch1-16,这时,我们删除前 15 个,仅保留最后一个即可,代码中设置为'model/epoch16'即可。重新运行 train.py 即可。
3、重新运行之后,model 中生成的文件夹会重新从 epoch1 开始,但是数据是延续之前第 16 轮的数据。训练的数值如 loss 等也是延续之前第 16 轮的数值。
8、新数据添加
设置方式与中断继续一样。
这里说明一下,虽然设置方式一样,
但本质不同,中断继续用的是同一个 pkl 文件,数据相同。
而新数据添加,则用的是与之前不同的 pkl 数据。
感觉家兴网络分享的《NLP训练原创文章生成系统安装使用教程》对您有所帮助,请分享给你的站长朋友们一起学习下!