NLP训练原创文章生成系统常见问题分享.png

近期发不了nlp训练写作文章机器人系统,好多人都咨询我各种关于程序的问题,软件我免费分享的大哥,下载了自行研究可否?考虑再三家兴网络吧他们经常会问的问题,搭建NLP训练文章写作需要了解东西坐下分享,希望大家可以自行了解。

NLP训练原创文章生成系统下载地址

一、关于显卡

1、只能用N卡,不能用A卡

2、跑训练,用到的主要性能是cuda数量、显存大小、显存位宽。挑选显卡主要参考这三方面参数。

1080TI约等于3060,1080TI略高一点,但考虑功耗,配套软件版本,未来可能的游戏效果等等,一般情况从性价比的方面考虑建议3060,与性能无关。性能与RMB成正比!

3、对比同样的数据集及参数,训练速度方面:3090是3060的三倍左右。

4、三风扇、双风扇、单风扇性能方面没什么区别,因为主要消耗显存颗粒。

5、矿卡可以买,不要在闲鱼买!看出厂日期、官方查SN码!土豪请忽略!

二、硬件及系统

1、内存建议在16G以上,越大越好,数据越大,需要的消耗的内存越大,并且你不可能只训练一次,采集的文章肯定会越来越多,以后随着数据集的不断增大,内存占用会很高。如果起步就是几十万上百万数据,建议32G起步!

2、硬盘250G以上,这是基础,因为c盘就要100G。普通采集文章的训练一般足够用了。训练及生成不需要占用太大的磁盘空间,主要是消耗GPU。

3、系统win10专业版或者win11。是为了配套cuda。最好不要用那种精简或者优化过的ghost系统!!!!!!用纯净版!win10或者win11需要vc等环境,由于绝大部分系统都带,所以教程里没写!

三、关于数据

一定要自己采集、处理、训练你自己的行业文章,这样生成效果才会好。因为更垂直,才能更专业!

有些卖家为了让消费者感觉这工具很厉害,硬塞了100G的通用数据在里面,这些数据都是网上能搜到的!并且!!!一点用都没有,反而成了累赘。因为这100G数据里面,真正你能用到的可能连几十兆都不到。如果你去训练这100G的数据,几个月都训练不出来,训练出来也用不上。就好比用作文的数据或模型去生成装修、机械的文章,一定是狗屁不通的!

四、关于多卡

很多人会考虑用多卡训练去提升速度。多卡我没尝试过,原因是!!!

1、穷!!!!

2、这个逻辑就是错误的!!!!

对于自然语言处理NLP而言:

首先举例:一张3060,训练一轮4小时,4张3060训练一轮不是1小时!是1.5小时甚至更多!

上4张3060不如上1张3090。4张3060你要考虑的是电源、空间、电费、噪音、安全等等问题!!!!并且4张3060训练速度并不一定能赶上一张3090,因为多卡训练需要考虑数据传输损耗的问题。

如果你说你要上4张3090,那不如有活动的时候去买阿里云或腾讯云的高端GPU服务器!!!!!!!!比如A100等,性能吊打桌面显卡。

所以站长根本没有尝试过多卡!!!!!!!

有人说多卡一定要用linux,这个站长没试过,有想尝试的朋友可以自行学习一下,安装所需要的环境、库等与win用到的一样,只是系统版本不一样。安装方式不同。主程序linux和win一样。这个不做教程了!

五、采集及预处理

1、采集很麻烦,需要各位各显神通。

2、我们采集的所有文章,注意:是所有!一定要按照格式(txt文本,编码UTF-8)

第一行标题,第二行空,第三行开始正文,且第三行不能为空,正文中可以有空行及换行)或者采集后按照规则批量处理数据。否则与训练会报错并中断。

尤其是采集后的文章用其他工具转换编码及格式的情况。因为这种工具有很多,但有些工具虽然显示成功,但容易出现漏网之鱼,就会报错。建议,直接用采集工具采集下来的文章编码和格式就是对的。

如果出现了这种错误,你采集了10万篇文章,其中只有一篇格式不对,这篇文章混在10万篇文章里,当系统预处理到这篇文章的时候就会报错中断。

如果出现这种情况,又找不到这篇文章,可以用笨方法,尝试把10万篇文章分割成10份,一份一份训练,训练通过的保存到一起。最后预处理这些训练通过的文章即可。

3、预处理速度:45万篇文章预处理约1.5小时左右。

六、训练

训练速度与数据集大小、参数、显卡有关。

七、生成

1、生成质量与数据集质量、参数有关。最主要的是数据集质量。

2、生成速度与显卡有关。

3、可以一边训练一边生成,前提是需要训练一轮数据作为基础。

建议:训练用显卡(GPU满跑),同时,生成用CPU。CPU生成速度会慢很多,但也可以。

3、批量生成的时候有可能会出现生成一些文章之后会卡主,不继续了。这个是CPM的一个

BUG,即使是单篇生成的时候偶尔也会出现。底层源码问题,目前没有好的办法。

七、关于其他

如果没有机器,或者机器配置低,又不想升级:

可以购买腾讯云的GPU服务器,240块钱三个月,但是只能买3个月。非常划算,相当于一天2块多,16G显存,性能跟3060差不多。就相当于一天花个电费,白嫖三个月机器。

如果嫌麻烦、不想折腾、想节约时间和精力,你可以去淘宝搜索NPL训练你会发现有好多代训练店铺,费用自己咨询对比:

1、他们帮你采集数据、训练模型;然后把模型发给你,你进行生成即可。

2、你自己采集数据,他们提供机器进行训练。可按天付费!

3、采集、训练、生成均有店主负责;按照文章量进行购买。

关于NLP训练原创文章生成系统常见问题分享给大家了,请自行学习,也可以分享给你一起在研究nlp文章训练的小伙伴,你们一起成长,争取产出更多优质文章内容。