Mel-band Roformer架构(MB-Roformer论文链接)的代码分支,UVR的作者去年年底就已经提交到GitHub,但迟迟没合到主分支。
直到……最近在b站刷到某些视频评论区发现效果提升还挺明显,才把UVR的代码checkout到这个分支,也才有了此文……
Baseline#
以前用的VITS AI翻唱的UVR流水线baseline,一共有3个步骤:
- 声伴分离:用
MDX23C-InstVoc HQ
,将输入音源分为声轨(包含和声)和乐轨 - 和声分离:用
UVR-BVE-4B_SN-44100-1
,再将声轨细分为主声轨和副声轨(和声声轨) - 去混响:用
UVR-De-Echo-Normal
,只处理主声轨
为了比较模型的原始效果,去混淆这步骤就免了,有几斤几两直接拎出来称称就知道了。
选的“松下”唱的“月光潤色ガール(カバー)”,人声部分比较容易看出模型的实力……
一键播放,然后自己调各个音轨的音量,or手动播放:
主声轨:
副声轨:
乐轨:
全部一点播放,乍一看还行,但单论单音轨的质量,其实还算差强人意(特别是副声轨)。
Roformer#
这次试水的2个新Roformer模型,效果还行:
- 声伴分离:用mel_band_roformer_karaoke_becruily,将输入音源分为主声轨和带和声的乐轨
- 和声分离:用
MB-Roformer-InstVoc-Duality-v2
,再将乐轨分为副声轨(和声声轨)和乐轨
调过karaoke的先后顺序,先用karaoke再用InstVoc模型,效果比先用InstVoc(提取声轨+乐轨)再用karaoke分离声轨要好上不少。至少,主声轨的质量只用跑单次模型,质量是最高的。
一键播放,然后自己调各个音轨的音量,or手动播放:
主声轨:
副声轨:
乐轨:
Roformer第一个分离模型用的是第3方的模型(UVR下载中心里也没有的),从hugging face下下来,模型的ckpt文件放到models/MDX_Net_Models
,配置放到models/MDX_Net_Models/model_data/mdx_c_configs
就好,启动UVR选中该模型后,就会问你是否添加模型配置,勾上Is Roformer选对配置文件就行。
添加好后,就能跟其他官方提供的模型一样使用:
两个模型的音轨单独比对比对,roformer不直接秒杀之前在用的baseline?有谁能拒绝一个纯净且无需再任何处理的主音轨呢。
这个模型唯一的缺点就是,吃GPU,且极吃GPU,4090满功率400w也得跑上1分钟出头……
UVR现在唯一还缺的功能大概就是合唱分离了,真有闲人把模型跑出来的话,我愿意称之为神。
这下压力来到so-vits-svc这边了。题外话:时隔一年的回归 最后的那段话,还是咕咕咕了,会迟到但不会缺席(doge.jpg)