分享A I 文本转语音工具。GPT-SoVITS的简单操作。

8 小q 1个月前 171次点击

哈罗,今天来简单分一下我训练A I 模型文本转语音的操作。

以及我用的一些简单的操作方法,这里说的不对之处欢迎大佬拍砖。

大家都知道,A I 可以拿别人的说话或者唱歌的素材训练模型唱歌说话等等。

那么今天分享的这个就是拿素材训练成可以文本转语音的工具。

好了以上啰嗦了这么多,仅限不明白这是个什么玩意儿的小伙伴。

高手可以略过。

现在开始操作。首先当然是获取工具,等一会儿我会把工具发上来。

然后准备你的干声素材,说话的,唱歌的。

PS:说话的素材是肯定没有问题的。至于唱歌的行不行,现在就来开始训练。

训练之前一定要知道你是否有独显。据说10以上系列的显卡就可以训练了。

解压GPT-SoVITS-beta0217.7z。运行go-webui.bat。稍事等待然后会打开网页。

用TAB切到0-前置数据集获取工具按钮

回车。

如果你的素材还没有完全弄好,他这边也提供了素材切割等一系列操作。

这里我素材已经准备好了,现在就开始下一步。文本标注。以及处理。

ps:音频素材文格式件最好是wav的,否则会出现什么问题我也不知道。

每个音频的时长最好控制在3到30秒之间。你要训练模型的素材总时长最好1分钟以上甚至是更长。当然,素材越多,音质月好,训练出来的模型可能会更好。

TAB切到输入文件夹路径可编辑文本多行,这里填写你音频的目录,例如D:\ljj

输出文件夹路径可编辑文本多行 output/asr_opt

这里默认即可。

ASR 模型组合框子菜单 达摩 ASR (中文)

ASR 模型尺寸组合框子菜单 large

ASR 语言设置组合框子菜单 zh以上都默认。

是否开启打标WebUI复选框未选中,把这个选中。

然后点击开启离线批量ASR按钮。此时你可以切换到命令行看你命令行输出的命令。

当你看到。ASR 任务完成->标注文件路径: D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list 。此时就代表处理完成了。然后就可以进行文本校对修改了。上面也提示了标注好文本所在的目录,你可以进入此目录用记事本打开进行修改校对。D:\ljj/001.wav|ljj|ZH|远距离的欣赏近距离的迷惘,谁说太阳会找到月亮?

D:\ljj/002.wav|ljj|ZH|别人有的爱,我们不可能模仿。

以上那就是我文本标注以后的结果。我用的林俊杰唱歌的素材。

好了,当你把文本修改校对完以后就可以开始训练了。

TAB切到1-GPT-SoVITS-TTS按钮

回车。

*实验/模型名可编辑文本多行 xxx这里填写你训练模型的名称。例如:LJJ。

预训练的SoVITS-G模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2G488k.pth

预训练的SoVITS-D模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2D488k.pth

预训练的GPT模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt。以上我都保持默认。点击1A-训练集格式化工具按钮。

*文本标注文件可编辑文本多行 D:\RVC1006\GPT-SoVITS\raw\xxx.list。

这里是填写我们刚刚文本标注的那个文件,你们还记得吗?我这里上面给我的目录是D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list。

我们把编辑框的内容删除,填写我们上面的目录。

*训练集音频文件目录可编辑文本多行。这里是填写我们音频素材的目录。也就是我们要训练模型的素材目录。

例如:D:\ljj

点击开启一键三连按钮。此时就已经开始处理了。看一下命令行。这个处理会很快。

然后找到1B-微调训练按钮。

每张显卡的batch_size微调按钮可编辑 4。这里按需设置。我的显卡是8G,我就选4。

总训练轮数total_epoch,不建议太高微调按钮可编辑 20。

文本模块学习率权重微调按钮可编辑 0.6

保存频率save_every_epoch微调按钮可编辑 4。保存评率。如果你训练轮数如果是10,那你选择了1,它就会每训练一轮就会保存一轮。他就会在放模型的文件夹里保留10个文件夹,因为你是选择了10轮。

那么这里我建议选择5,意思是训练5轮保存一次。

上面的参数,大家可以自行研究合适的参数设置。

是否仅保存最新的ckpt文件以节省硬盘空间复选框已选中这个选中。

然后点击

开启SoVITS训练按钮

。此时就可以去看命令行了。等着训练完成。

当你看到INFO:ljj:====> Epoch: 20 这就代表训练结束。

我选择的是训练20轮。他意思是20轮训练结束了,

下面还有一个

开启GPT训练按钮。这个也要训练。先等上面的训练完了以后在点这个。前提是点开启GPT训练按钮之前,有一些和上面一样的参数。要设置,这里别忘了。

好了,看到训练完成以后开始文本转语音。

在转语音之前你需要检查刚刚训练的模型文件夹是否存在模型。

训练了两个模型。他的保存目录是不一样的。第一次训练保存的目录是在SoVITS_weights这个目录里。第二次训练保存 的目录是在GPT_weights里。

切记两者保存在不同的目录,切勿移动。否则会找不到模型。

第一次训练的那个是.pth的文件。

第二次训练的是.ckpt的文件。

然后建议刷新一下网页,或者全部关闭重新运行一下go-webui.bat

点击1C-推理按钮。

*GPT模型列表组合框子菜单 ljj-e15.ckpt

*SoVITS模型列表组合框子菜单 ljj_e18_s468.pth

以上两个组合框是选择我们刚刚训练的那两个文件的。

如果你没法选择,你可以点击一下刷新模型路径按钮。在来选择。

是否开启TTS推理WebUI 复选框 未选中选中他。稍等一会儿会出现新的界面。

请上传3~10秒内参考音频,超过会报错!

我随便上传一个林俊杰唱歌的音频。

可以播放听一下。然后还可以看到时长。音频时间进度条 滑块 总时间:0:07。

这好像是10秒以内的。

开启无参考文本模式。不填参考文本亦相当于开启。 复选框 未选中。

这里我就不填了。

大家也可以填写参考文本。

需要合成的文本 可编辑文本 多行 。这里可以写你需要转换语音的文本。

如:大家好,我是林俊杰,很高兴来到天坦论坛和大家一起玩耍。

需要合成的语种 组合框 中文

不切 单选按钮 未选中

凑四句一切 单选按钮 已选中

凑50字一切 单选按钮 未选中

按中文句号。切 单选按钮 未选中

按英文句号.切 单选按钮 未选中

按标点符号切 单选按钮 未选中 。这里大家按需选择。

gpt采样参数(无参考文本时不要太低):

top_k

top_k 微调按钮 可编辑

top_k 滑块

top_p

top_p 微调按钮 可编辑

top_p 滑块

temperature

temperature 微调按钮 可编辑

temperature 滑块

合成语音 按钮点击合成语音。

合成以后你可以播放,下载。

好了啰嗦了这么多,至于怎么更好玩,大家自行研究,我也是刚拿到这东西很久了才开始折腾。

切记,以上操作需tab配合上下光标进行操作。

共 8 条评论
小q [楼主] 1个月前
0 

【超级会员V5】通过百度网盘分享的文件:GPT-SoVI…

链接:https://pan.baidu.com/s/1BLjwVUmsfgbK2uw8Iy2rLg?pwd=v66b 

提取码:v66b

复制这段内容打开「百度网盘APP 即可获取」

壮丽星海 1个月前
0 

这是程序员学的东西问号。,看不懂。

0 

网上有一个专门研究变声器的up主,他说如果要训练模型的话,最好还是专门到录音室里面请音源录制

江浸月 1个月前
0 

感谢分享,没想到在这里还能看到这样的好帖子。

月明星稀 1个月前
0 

感谢楼主,明天我试一下,也不知道我的I7 1260p 集显 是否能担任

小q [楼主] 1个月前
0 

你这没问题。

0 

可以看懂

0 

我用的是那个声音克隆。这个等有时间研究一下

添加一条新评论

登录后可以发表评论 去登录