GPT-SoVITS搭建

图库跑路了所以图片看不了了

准备

下载地址:

GPT-SoVITS开源github发布地址(不会编程的不要下这个,下载楼下的整合包)
https://github.com/RVC-Boss/GPT-SoVITS
训练推理整合包地址:
https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi(度盘要氪超级会员才能满速下载)
https://www.123pan.com/s/5tIqVv-GVRcv.html(可满速下载但是要注册账号)
云端训练地址https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official

—by bilibili 花儿不哭

这里使用的整合包

解压后运行根目录下的go-webui.bat

打开后如果提示有风险点击高级并继续运行,会弹出来个命令窗等个一会儿就会自动弹出网页,地址为localhost:9874

准备一段2分钟左右的录制音频,(要求为纯人声录制,环境噪音尽量没有,目前仅支持中文录音,可以直接在手机里录音,录音格式最好选择wav格式)如果你想训练别人的声音但是有环境噪音,可以使用UVR5-WebUI输出降噪后的音频:

点击后加载一段时间,如果自动打开了一个新网页就说明成功了,在这个新网页里面上传音频,模型可以根据网页的文字提示来选择,输出格式就选择比较好的wav吧。输出后在你选择的目标文件夹里。

之后回到之前的网页,准备开始语音切割,根据要求填就行了:

如果发现切割后的音频有20秒以上的可能就需要重新设置参数并切割了

下一步 打标,先填写参数,输入路径就是刚刚切割好的音频文件夹路径

然后会在目标文件夹输出一个slicer.list文件,点击复制它的文件路径到下一板块:

然后点击”是否开启达标WebUI”,等待它打开,然后就开始修改语音转换的文字有没有错误,或者是有停顿的地方没有逗号等。改完一页后点击上面的Submit Text(保存),然后点Next index(下一页)。每次切换都要点一下Submit Text保存。最后弄好后点击上面的Save File 保存后返回主页面,关闭”是否开启打标WebUI”,将刚刚的修改后的list文件准备好(最好复制到一个地方)

训练

请先准备好6gb以上的显存

(反正可以去试试,配置太低的会报“很遗憾您这没有能用的显卡来支持您训练”或者原因是整合包下的torch版本与我的cuda版本不兼容
ps:具有相同问题的朋友可以在整合包下的runtime文件夹运行cmd,输入python.exe -c “import torch; print(torch.cuda.is_available())”
若返回结果为False,则是与我相同的问题)