分享A I 文本转语音工具。GPT-SoVITS的简单操作。

8 小q 1个月前 171次点击

哈罗，今天来简单分一下我训练A I 模型文本转语音的操作。

以及我用的一些简单的操作方法，这里说的不对之处欢迎大佬拍砖。

大家都知道，A I 可以拿别人的说话或者唱歌的素材训练模型唱歌说话等等。

那么今天分享的这个就是拿素材训练成可以文本转语音的工具。

好了以上啰嗦了这么多，仅限不明白这是个什么玩意儿的小伙伴。

高手可以略过。

现在开始操作。首先当然是获取工具，等一会儿我会把工具发上来。

然后准备你的干声素材，说话的，唱歌的。

PS:说话的素材是肯定没有问题的。至于唱歌的行不行，现在就来开始训练。

训练之前一定要知道你是否有独显。据说10以上系列的显卡就可以训练了。

解压GPT-SoVITS-beta0217.7z。运行go-webui.bat。稍事等待然后会打开网页。

用TAB切到0-前置数据集获取工具按钮

回车。

如果你的素材还没有完全弄好，他这边也提供了素材切割等一系列操作。

这里我素材已经准备好了，现在就开始下一步。文本标注。以及处理。

ps:音频素材文格式件最好是wav的，否则会出现什么问题我也不知道。

每个音频的时长最好控制在3到30秒之间。你要训练模型的素材总时长最好1分钟以上甚至是更长。当然，素材越多，音质月好，训练出来的模型可能会更好。

TAB切到输入文件夹路径可编辑文本多行，这里填写你音频的目录，例如D:\ljj

输出文件夹路径可编辑文本多行 output/asr_opt

这里默认即可。

ASR 模型组合框子菜单达摩 ASR (中文)

ASR 模型尺寸组合框子菜单 large

ASR 语言设置组合框子菜单 zh以上都默认。

是否开启打标WebUI复选框未选中，把这个选中。

然后点击开启离线批量ASR按钮。此时你可以切换到命令行看你命令行输出的命令。

当你看到。ASR 任务完成->标注文件路径: D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list 。此时就代表处理完成了。然后就可以进行文本校对修改了。上面也提示了标注好文本所在的目录，你可以进入此目录用记事本打开进行修改校对。D:\ljj/001.wav|ljj|ZH|远距离的欣赏近距离的迷惘，谁说太阳会找到月亮？

D:\ljj/002.wav|ljj|ZH|别人有的爱，我们不可能模仿。

以上那就是我文本标注以后的结果。我用的林俊杰唱歌的素材。

好了，当你把文本修改校对完以后就可以开始训练了。

TAB切到1-GPT-SoVITS-TTS按钮

回车。

*实验/模型名可编辑文本多行 xxx这里填写你训练模型的名称。例如:LJJ。

预训练的SoVITS-G模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2G488k.pth

预训练的SoVITS-D模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s2D488k.pth

预训练的GPT模型路径可编辑文本多行 GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt。以上我都保持默认。点击1A-训练集格式化工具按钮。

*文本标注文件可编辑文本多行 D:\RVC1006\GPT-SoVITS\raw\xxx.list。

这里是填写我们刚刚文本标注的那个文件，你们还记得吗？我这里上面给我的目录是D:\GPT-SoVITS-beta0217\output\asr_opt\ljj.list。

我们把编辑框的内容删除，填写我们上面的目录。

*训练集音频文件目录可编辑文本多行。这里是填写我们音频素材的目录。也就是我们要训练模型的素材目录。

例如：D:\ljj

点击开启一键三连按钮。此时就已经开始处理了。看一下命令行。这个处理会很快。

然后找到1B-微调训练按钮。

每张显卡的batch_size微调按钮可编辑 4。这里按需设置。我的显卡是8G，我就选4。

总训练轮数total_epoch，不建议太高微调按钮可编辑 20。

文本模块学习率权重微调按钮可编辑 0.6

保存频率save_every_epoch微调按钮可编辑 4。保存评率。如果你训练轮数如果是10，那你选择了1，它就会每训练一轮就会保存一轮。他就会在放模型的文件夹里保留10个文件夹，因为你是选择了10轮。

那么这里我建议选择5，意思是训练5轮保存一次。

上面的参数，大家可以自行研究合适的参数设置。

是否仅保存最新的ckpt文件以节省硬盘空间复选框已选中这个选中。

然后点击

开启SoVITS训练按钮

。此时就可以去看命令行了。等着训练完成。

当你看到INFO:ljj:====> Epoch: 20 这就代表训练结束。

我选择的是训练20轮。他意思是20轮训练结束了，

下面还有一个

开启GPT训练按钮。这个也要训练。先等上面的训练完了以后在点这个。前提是点开启GPT训练按钮之前，有一些和上面一样的参数。要设置，这里别忘了。

好了，看到训练完成以后开始文本转语音。

在转语音之前你需要检查刚刚训练的模型文件夹是否存在模型。

训练了两个模型。他的保存目录是不一样的。第一次训练保存的目录是在SoVITS_weights这个目录里。第二次训练保存的目录是在GPT_weights里。

切记两者保存在不同的目录，切勿移动。否则会找不到模型。

第一次训练的那个是.pth的文件。

第二次训练的是.ckpt的文件。

然后建议刷新一下网页，或者全部关闭重新运行一下go-webui.bat

点击1C-推理按钮。

*GPT模型列表组合框子菜单 ljj-e15.ckpt

*SoVITS模型列表组合框子菜单 ljj_e18_s468.pth

以上两个组合框是选择我们刚刚训练的那两个文件的。

如果你没法选择，你可以点击一下刷新模型路径按钮。在来选择。

是否开启TTS推理WebUI 复选框未选中选中他。稍等一会儿会出现新的界面。

请上传3~10秒内参考音频，超过会报错！

我随便上传一个林俊杰唱歌的音频。

可以播放听一下。然后还可以看到时长。音频时间进度条滑块总时间：0:07。

这好像是10秒以内的。

开启无参考文本模式。不填参考文本亦相当于开启。复选框未选中。

这里我就不填了。

大家也可以填写参考文本。

需要合成的文本可编辑文本多行。这里可以写你需要转换语音的文本。

如:大家好，我是林俊杰，很高兴来到天坦论坛和大家一起玩耍。

需要合成的语种组合框中文

不切单选按钮未选中

凑四句一切单选按钮已选中

凑50字一切单选按钮未选中

按中文句号。切单选按钮未选中

按英文句号.切单选按钮未选中

按标点符号切单选按钮未选中。这里大家按需选择。

gpt采样参数(无参考文本时不要太低)：

top_k

top_k 微调按钮可编辑

top_k 滑块

top_p

top_p 微调按钮可编辑

top_p 滑块

temperature

temperature 微调按钮可编辑

temperature 滑块

合成语音按钮点击合成语音。

合成以后你可以播放，下载。

好了啰嗦了这么多，至于怎么更好玩，大家自行研究，我也是刚拿到这东西很久了才开始折腾。

切记，以上操作需tab配合上下光标进行操作。

我是天坦铁粉

共 8 条评论

小q [楼主] 1个月前

【超级会员V5】通过百度网盘分享的文件：GPT-SoVI…

链接:https://pan.baidu.com/s/1BLjwVUmsfgbK2uw8Iy2rLg?pwd=v66b

提取码:v66b

复制这段内容打开「百度网盘APP 即可获取」

壮丽星海 1个月前

这是程序员学的东西问号。，看不懂。

饮星哲月resnah 1个月前

网上有一个专门研究变声器的up主，他说如果要训练模型的话，最好还是专门到录音室里面请音源录制

江浸月 1个月前

感谢分享，没想到在这里还能看到这样的好帖子。

月明星稀 1个月前

感谢楼主，明天我试一下，也不知道我的I7 1260p 集显是否能担任

小q [楼主] 1个月前

你这没问题。

礼貌的狸猫 1个月前

可以看懂

礼貌的狸猫 1个月前

我用的是那个声音克隆。这个等有时间研究一下

添加一条新评论

登录后可以发表评论去登录

作者

小q

积分：785

这家伙很懒，什么都没有留下

作者其它话题

有需要挂机服务的同学吗

有需要用自己的声音ai唱歌的吗。

用薛之谦的声音唱张杰的歌。

听听以前刀郎的声音。唱现在的歌。看是什么感觉。

a i 毛不易-姑娘别哭泣

说说我自己手机远程电脑的一些经验

a i 薛之谦-他说