声伴分离工具UVR5.6 beta分支Roformer模型实测

Mel-band Roformer架构(MB-Roformer论文链接)的代码分支,UVR的作者去年年底就已经提交到GitHub,但迟迟没合到主分支。

直到……最近在b站刷到某些视频评论区发现效果提升还挺明显,才把UVR的代码checkout到这个分支,也才有了此文……

Baseline#

以前用的VITS AI翻唱的UVR流水线baseline,一共有3个步骤:

  • 声伴分离:用MDX23C-InstVoc HQ,将输入音源分为声轨(包含和声)和乐轨
  • 和声分离:用UVR-BVE-4B_SN-44100-1,再将声轨细分为主声轨和副声轨(和声声轨)
  • 去混响:用UVR-De-Echo-Normal,只处理主声轨

为了比较模型的原始效果,去混淆这步骤就免了,有几斤几两直接拎出来称称就知道了。

选的“松下”唱的“月光潤色ガール(カバー)”,人声部分比较容易看出模型的实力……

一键播放,然后自己调各个音轨的音量,or手动播放:

主声轨:

副声轨:

乐轨:

全部一点播放,乍一看还行,但单论单音轨的质量,其实还算差强人意(特别是副声轨)。

Roformer#

这次试水的2个新Roformer模型,效果还行:

  • 声伴分离:用mel_band_roformer_karaoke_becruily,将输入音源分为主声轨和带和声的乐轨
  • 和声分离:用MB-Roformer-InstVoc-Duality-v2,再将乐轨分为副声轨(和声声轨)和乐轨

调过karaoke的先后顺序,先用karaoke再用InstVoc模型,效果比先用InstVoc(提取声轨+乐轨)再用karaoke分离声轨要好上不少。至少,主声轨的质量只用跑单次模型,质量是最高的。

一键播放,然后自己调各个音轨的音量,or手动播放:

主声轨:

副声轨:

乐轨:

Roformer第一个分离模型用的是第3方的模型(UVR下载中心里也没有的),从hugging face下下来,模型的ckpt文件放到models/MDX_Net_Models,配置放到models/MDX_Net_Models/model_data/mdx_c_configs就好,启动UVR选中该模型后,就会问你是否添加模型配置,勾上Is Roformer选对配置文件就行。

添加好后,就能跟其他官方提供的模型一样使用:

两个模型的音轨单独比对比对,roformer不直接秒杀之前在用的baseline?有谁能拒绝一个纯净且无需再任何处理的主音轨呢。

这个模型唯一的缺点就是,吃GPU,且极吃GPU,4090满功率400w也得跑上1分钟出头……

UVR现在唯一还缺的功能大概就是合唱分离了,真有闲人把模型跑出来的话,我愿意称之为神。

这下压力来到so-vits-svc这边了。题外话:时隔一年的回归 最后的那段话,还是咕咕咕了,会迟到但不会缺席(doge.jpg)