8 小q 1个月前 171次点击
哈罗,今天来简单分一下我训练A I 模型文本转语音的操作。
以及我用的一些简单的操作方法,这里说的不对之处欢迎大佬拍砖。
大家都知道,A I 可以拿别人的说话或者唱歌的素材训练模型唱歌说话等等。
那么今天分享的这个就是拿素材训练成可以文本转语音的工具。
好了以上啰嗦了这么多,仅限不明白这是个什么玩意儿的小伙伴。
高手可以略过。
现在开始操作。首先当然是获取工具,等一会儿我会把工具发上来。
然后准备你的干声素材,说话的,唱歌的。
PS:说话的素材是肯定没有问题的。至于唱歌的行不行,现在就来开始训练。
训练之前一定要知道你是否有独显。据说10以上系列的显卡就可以训练了。
解压GPT-SoVITS-beta0217.7z。运行go-webui.bat。稍事等待然后会打开网页。
用TAB切到0-前置数据集获取工具按钮
回车。
如果你的素材还没有完全弄好,他这边也提供了素材切割等一系列操作。
这里我素材已经准备好了,现在就开始下一步。文本标注。以及处理。
ps:音频素材文格式件最好是wav的,否则会出现什么问题我也不知道。
每个音频的时长最好控制在3到30秒之间。你要训练模型的素材总时长最好1分钟以上甚至是更长。当然,素材越多,音质月好,训练出来的模型可能会更好。
TAB切到输入文件夹路径可编辑文本多行,这里填写你音频的目录,例如D:\ljj
输出文件夹路径可编辑文本多行 output/asr_opt
这里默认即可。
ASR 模型组合框子菜单 达摩 ASR (中文)
ASR 模型尺寸组合框子菜单 large
ASR 语言设置组合框子菜单 zh以上都默认。
是否开启打标WebUI复选框未选中,把这个选中。
然后点击开启离线批量ASR按钮。此时你可以切换到命令行看你命令行输出的命令。
当你看到。ASR 任务完成->标注文件路径: D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list 。此时就代表处理完成了。然后就可以进行文本校对修改了。上面也提示了标注好文本所在的目录,你可以进入此目录用记事本打开进行修改校对。D:\ljj/001.wav|ljj|ZH|远距离的欣赏近距离的迷惘,谁说太阳会找到月亮?
D:\ljj/002.wav|ljj|ZH|别人有的爱,我们不可能模仿。
以上那就是我文本标注以后的结果。我用的林俊杰唱歌的素材。
好了,当你把文本修改校对完以后就可以开始训练了。
TAB切到1-GPT-SoVITS-TTS按钮
回车。
*实验/模型名可编辑文本多行 xxx这里填写你训练模型的名称。例如:LJJ。
预训练的SoVITS-G模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2G488k.pth
预训练的SoVITS-D模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2D488k.pth
预训练的GPT模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt。以上我都保持默认。点击1A-训练集格式化工具按钮。
*文本标注文件可编辑文本多行 D:\RVC1006\GPT-SoVITS\raw\xxx.list。
这里是填写我们刚刚文本标注的那个文件,你们还记得吗?我这里上面给我的目录是D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list。
我们把编辑框的内容删除,填写我们上面的目录。
*训练集音频文件目录可编辑文本多行。这里是填写我们音频素材的目录。也就是我们要训练模型的素材目录。
例如:D:\ljj
点击开启一键三连按钮。此时就已经开始处理了。看一下命令行。这个处理会很快。
然后找到1B-微调训练按钮。
每张显卡的batch_size微调按钮可编辑 4。这里按需设置。我的显卡是8G,我就选4。
总训练轮数total_epoch,不建议太高微调按钮可编辑 20。
文本模块学习率权重微调按钮可编辑 0.6
保存频率save_every_epoch微调按钮可编辑 4。保存评率。如果你训练轮数如果是10,那你选择了1,它就会每训练一轮就会保存一轮。他就会在放模型的文件夹里保留10个文件夹,因为你是选择了10轮。
那么这里我建议选择5,意思是训练5轮保存一次。
上面的参数,大家可以自行研究合适的参数设置。
是否仅保存最新的ckpt文件以节省硬盘空间复选框已选中这个选中。
然后点击
开启SoVITS训练按钮
。此时就可以去看命令行了。等着训练完成。
当你看到INFO:ljj:====> Epoch: 20 这就代表训练结束。
我选择的是训练20轮。他意思是20轮训练结束了,
下面还有一个
开启GPT训练按钮。这个也要训练。先等上面的训练完了以后在点这个。前提是点开启GPT训练按钮之前,有一些和上面一样的参数。要设置,这里别忘了。
好了,看到训练完成以后开始文本转语音。
在转语音之前你需要检查刚刚训练的模型文件夹是否存在模型。
训练了两个模型。他的保存目录是不一样的。第一次训练保存的目录是在SoVITS_weights这个目录里。第二次训练保存 的目录是在GPT_weights里。
切记两者保存在不同的目录,切勿移动。否则会找不到模型。
第一次训练的那个是.pth的文件。
第二次训练的是.ckpt的文件。
然后建议刷新一下网页,或者全部关闭重新运行一下go-webui.bat
点击1C-推理按钮。
*GPT模型列表组合框子菜单 ljj-e15.ckpt
*SoVITS模型列表组合框子菜单 ljj_e18_s468.pth
以上两个组合框是选择我们刚刚训练的那两个文件的。
如果你没法选择,你可以点击一下刷新模型路径按钮。在来选择。
是否开启TTS推理WebUI 复选框 未选中选中他。稍等一会儿会出现新的界面。
请上传3~10秒内参考音频,超过会报错!
我随便上传一个林俊杰唱歌的音频。
可以播放听一下。然后还可以看到时长。音频时间进度条 滑块 总时间:0:07。
这好像是10秒以内的。
开启无参考文本模式。不填参考文本亦相当于开启。 复选框 未选中。
这里我就不填了。
大家也可以填写参考文本。
需要合成的文本 可编辑文本 多行 。这里可以写你需要转换语音的文本。
如:大家好,我是林俊杰,很高兴来到天坦论坛和大家一起玩耍。
需要合成的语种 组合框 中文
不切 单选按钮 未选中
凑四句一切 单选按钮 已选中
凑50字一切 单选按钮 未选中
按中文句号。切 单选按钮 未选中
按英文句号.切 单选按钮 未选中
按标点符号切 单选按钮 未选中 。这里大家按需选择。
gpt采样参数(无参考文本时不要太低):
top_k
top_k 微调按钮 可编辑
top_k 滑块
top_p
top_p 微调按钮 可编辑
top_p 滑块
temperature
temperature 微调按钮 可编辑
temperature 滑块
合成语音 按钮点击合成语音。
合成以后你可以播放,下载。
好了啰嗦了这么多,至于怎么更好玩,大家自行研究,我也是刚拿到这东西很久了才开始折腾。
切记,以上操作需tab配合上下光标进行操作。
【超级会员V5】通过百度网盘分享的文件:GPT-SoVI…
链接:https://pan.baidu.com/s/1BLjwVUmsfgbK2uw8Iy2rLg?pwd=v66b
提取码:v66b
复制这段内容打开「百度网盘APP 即可获取」