GPT-SoVITS搭建

何平安2024-03-012024-08-03

图库跑路了所以图片看不了了

准备

下载地址：

GPT-SoVITS开源github发布地址（不会编程的不要下这个，下载楼下的整合包）
https://github.com/RVC-Boss/GPT-SoVITS
训练推理整合包地址：
https://pan.baidu.com/s/1OE5qL0KreO-ASHwm6Zl9gA?pwd=mqpi（度盘要氪超级会员才能满速下载）
https://www.123pan.com/s/5tIqVv-GVRcv.html（可满速下载但是要注册账号）
云端训练地址https://www.codewithgpu.com/i/RVC-Boss/GPT-SoVITS/GPT-SoVITS-Official

—by bilibili 花儿不哭

这里使用的整合包

解压后运行根目录下的go-webui.bat

打开后如果提示有风险点击高级并继续运行，会弹出来个命令窗等个一会儿就会自动弹出网页，地址为localhost:9874

准备一段2分钟左右的录制音频，（要求为纯人声录制，环境噪音尽量没有，目前仅支持中文录音，可以直接在手机里录音，录音格式最好选择wav格式）如果你想训练别人的声音但是有环境噪音，可以使用UVR5-WebUI输出降噪后的音频：

点击后加载一段时间，如果自动打开了一个新网页就说明成功了，在这个新网页里面上传音频，模型可以根据网页的文字提示来选择，输出格式就选择比较好的wav吧。输出后在你选择的目标文件夹里。

之后回到之前的网页，准备开始语音切割，根据要求填就行了：

如果发现切割后的音频有20秒以上的可能就需要重新设置参数并切割了

下一步打标，先填写参数，输入路径就是刚刚切割好的音频文件夹路径

然后会在目标文件夹输出一个slicer.list文件，点击复制它的文件路径到下一板块：

然后点击”是否开启达标WebUI”，等待它打开，然后就开始修改语音转换的文字有没有错误，或者是有停顿的地方没有逗号等。改完一页后点击上面的Submit Text（保存），然后点Next index（下一页）。每次切换都要点一下Submit Text保存。最后弄好后点击上面的Save File 保存后返回主页面，关闭”是否开启打标WebUI”，将刚刚的修改后的list文件准备好（最好复制到一个地方）

训练

请先准备好6gb以上的显存

（反正可以去试试，配置太低的会报“很遗憾您这没有能用的显卡来支持您训练”或者原因是整合包下的torch版本与我的cuda版本不兼容
ps：具有相同问题的朋友可以在整合包下的runtime文件夹运行cmd，输入python.exe -c “import torch; print(torch.cuda.is_available())”
若返回结果为False，则是与我相同的问题）