NLP训练原创文章生成系统常见问题分享
近期发不了nlp训练写作文章机器人系统,好多人都咨询我各种关于程序的问题,软件我免费分享的大哥,下载了自行研究可否?考虑再三家兴网络吧他们经常会问的问题,搭建NLP训练文章写作需要了解东西坐下分享,希望大家可以自行了解。
一、关于显卡
1、只能用N卡,不能用A卡
2、跑训练,用到的主要性能是cuda数量、显存大小、显存位宽。挑选显卡主要参考这三方面参数。
1080TI约等于3060,1080TI略高一点,但考虑功耗,配套软件版本,未来可能的游戏效果等等,一般情况从性价比的方面考虑建议3060,与性能无关。性能与RMB成正比!
3、对比同样的数据集及参数,训练速度方面:3090是3060的三倍左右。
4、三风扇、双风扇、单风扇性能方面没什么区别,因为主要消耗显存颗粒。
5、矿卡可以买,不要在闲鱼买!看出厂日期、官方查SN码!土豪请忽略!
二、硬件及系统
1、内存建议在16G以上,越大越好,数据越大,需要的消耗的内存越大,并且你不可能只训练一次,采集的文章肯定会越来越多,以后随着数据集的不断增大,内存占用会很高。如果起步就是几十万上百万数据,建议32G起步!
2、硬盘250G以上,这是基础,因为c盘就要100G。普通采集文章的训练一般足够用了。训练及生成不需要占用太大的磁盘空间,主要是消耗GPU。
3、系统win10专业版或者win11。是为了配套cuda。最好不要用那种精简或者优化过的ghost系统!!!!!!用纯净版!win10或者win11需要vc等环境,由于绝大部分系统都带,所以教程里没写!
三、关于数据
一定要自己采集、处理、训练你自己的行业文章,这样生成效果才会好。因为更垂直,才能更专业!
有些卖家为了让消费者感觉这工具很厉害,硬塞了100G的通用数据在里面,这些数据都是网上能搜到的!并且!!!一点用都没有,反而成了累赘。因为这100G数据里面,真正你能用到的可能连几十兆都不到。如果你去训练这100G的数据,几个月都训练不出来,训练出来也用不上。就好比用作文的数据或模型去生成装修、机械的文章,一定是狗屁不通的!
四、关于多卡
很多人会考虑用多卡训练去提升速度。多卡我没尝试过,原因是!!!
1、穷!!!!
2、这个逻辑就是错误的!!!!
对于自然语言处理NLP而言:
首先举例:一张3060,训练一轮4小时,4张3060训练一轮不是1小时!是1.5小时甚至更多!
上4张3060不如上1张3090。4张3060你要考虑的是电源、空间、电费、噪音、安全等等问题!!!!并且4张3060训练速度并不一定能赶上一张3090,因为多卡训练需要考虑数据传输损耗的问题。
如果你说你要上4张3090,那不如有活动的时候去买阿里云或腾讯云的高端GPU服务器!!!!!!!!比如A100等,性能吊打桌面显卡。
所以站长根本没有尝试过多卡!!!!!!!
有人说多卡一定要用linux,这个站长没试过,有想尝试的朋友可以自行学习一下,安装所需要的环境、库等与win用到的一样,只是系统版本不一样。安装方式不同。主程序linux和win一样。这个不做教程了!
五、采集及预处理
1、采集很麻烦,需要各位各显神通。
2、我们采集的所有文章,注意:是所有!一定要按照格式(txt文本,编码UTF-8)
第一行标题,第二行空,第三行开始正文,且第三行不能为空,正文中可以有空行及换行)或者采集后按照规则批量处理数据。否则与训练会报错并中断。
尤其是采集后的文章用其他工具转换编码及格式的情况。因为这种工具有很多,但有些工具虽然显示成功,但容易出现漏网之鱼,就会报错。建议,直接用采集工具采集下来的文章编码和格式就是对的。
如果出现了这种错误,你采集了10万篇文章,其中只有一篇格式不对,这篇文章混在10万篇文章里,当系统预处理到这篇文章的时候就会报错中断。
如果出现这种情况,又找不到这篇文章,可以用笨方法,尝试把10万篇文章分割成10份,一份一份训练,训练通过的保存到一起。最后预处理这些训练通过的文章即可。
3、预处理速度:45万篇文章预处理约1.5小时左右。
六、训练
训练速度与数据集大小、参数、显卡有关。
七、生成
1、生成质量与数据集质量、参数有关。最主要的是数据集质量。
2、生成速度与显卡有关。
3、可以一边训练一边生成,前提是需要训练一轮数据作为基础。
建议:训练用显卡(GPU满跑),同时,生成用CPU。CPU生成速度会慢很多,但也可以。
3、批量生成的时候有可能会出现生成一些文章之后会卡主,不继续了。这个是CPM的一个
BUG,即使是单篇生成的时候偶尔也会出现。底层源码问题,目前没有好的办法。
七、关于其他
如果没有机器,或者机器配置低,又不想升级:
可以购买腾讯云的GPU服务器,240块钱三个月,但是只能买3个月。非常划算,相当于一天2块多,16G显存,性能跟3060差不多。就相当于一天花个电费,白嫖三个月机器。
如果嫌麻烦、不想折腾、想节约时间和精力,你可以去淘宝搜索NPL训练你会发现有好多代训练店铺,费用自己咨询对比:
1、他们帮你采集数据、训练模型;然后把模型发给你,你进行生成即可。
2、你自己采集数据,他们提供机器进行训练。可按天付费!
3、采集、训练、生成均有店主负责;按照文章量进行购买。
关于NLP训练原创文章生成系统常见问题分享给大家了,请自行学习,也可以分享给你一起在研究nlp文章训练的小伙伴,你们一起成长,争取产出更多优质文章内容。