2025-05-12

deep-learning

声伴分离工具UVR5.6 beta分支Roformer模型实测

Mel-band Roformer架构（MB-Roformer论文链接）的代码分支，UVR的作者去年年底就已经提交到GitHub，但迟迟没合到主分支。

直到……最近在b站刷到某些视频评论区发现效果提升还挺明显，才把UVR的代码checkout到这个分支，也才有了此文……

Baseline#

以前用的VITS AI翻唱的UVR流水线baseline，一共有3个步骤：

声伴分离：用MDX23C-InstVoc HQ，将输入音源分为声轨（包含和声）和乐轨
和声分离：用UVR-BVE-4B_SN-44100-1，再将声轨细分为主声轨和副声轨（和声声轨）
去混响：用UVR-De-Echo-Normal，只处理主声轨

为了比较模型的原始效果，去混淆这步骤就免了，有几斤几两直接拎出来称称就知道了。

选的“松下”唱的“月光潤色ガール(カバー)”，人声部分比较容易看出模型的实力……

一键播放，然后自己调各个音轨的音量，or手动播放：

主声轨：

副声轨：

乐轨：

全部一点播放，乍一看还行，但单论单音轨的质量，其实还算差强人意（特别是副声轨）。

Roformer#

这次试水的2个新Roformer模型，效果还行：

声伴分离：用mel_band_roformer_karaoke_becruily，将输入音源分为主声轨和带和声的乐轨
和声分离：用MB-Roformer-InstVoc-Duality-v2，再将乐轨分为副声轨（和声声轨）和乐轨

调过karaoke的先后顺序，先用karaoke再用InstVoc模型，效果比先用InstVoc（提取声轨+乐轨）再用karaoke分离声轨要好上不少。至少，主声轨的质量只用跑单次模型，质量是最高的。

一键播放，然后自己调各个音轨的音量，or手动播放：

主声轨：

副声轨：

乐轨：

Roformer第一个分离模型用的是第3方的模型（UVR下载中心里也没有的），从hugging face下下来，模型的ckpt文件放到models/MDX_Net_Models，配置放到models/MDX_Net_Models/model_data/mdx_c_configs就好，启动UVR选中该模型后，就会问你是否添加模型配置，勾上Is Roformer选对配置文件就行。

添加好后，就能跟其他官方提供的模型一样使用：

两个模型的音轨单独比对比对，roformer不直接秒杀之前在用的baseline？有谁能拒绝一个纯净且无需再任何处理的主音轨呢。

这个模型唯一的缺点就是，吃GPU，且极吃GPU，4090满功率400w也得跑上1分钟出头……

UVR现在唯一还缺的功能大概就是合唱分离了，真有闲人把模型跑出来的话，我愿意称之为神。

~~这下压力来到so-vits-svc这边了。题外话：时隔一年的回归最后的那段话，还是咕咕咕了，会迟到但不会缺席（doge.jpg）~~

雪饼的狗窝

黑贞天下第一

声伴分离工具UVR5.6 beta分支Roformer模型实测

Baseline#

Roformer#