由香港科研院和微软亚洲研究院开发的基于扩散推理的唱歌模型CoMoSVC

5 永远有多远 1年前 682次点击

CoMoSVC：基于一致性模型的歌声转换

作者：Yiwen Lu、Zhen Ye、Wei Xue†、Xu Tan、Qifeng Liu、Yike Guo†

1 香港科技大学

2 微软亚洲研究院

摘要

基于扩散的歌声转换（SVC）方法已取得显著成果，能够生成与目标音色高度相似的自然音频。然而，迭代采样过程导致推理速度较慢，因此加速变得至关重要。本文提出了CoMoSVC，一种基于一致性模型的SVC方法，旨在实现高质量生成和高速采样。首先设计了专门用于SVC的扩散模型教师模型，然后在自一致性属性下进一步蒸馏出学生模型，实现一步采样。单张NVIDIA GTX 4090 GPU上的实验显示，虽然CoMoSVC的推理速度远快于最先进（SOTA）的基于扩散的SVC系统，但其转换性能在主观和客观指标上仍然可比甚至优于SOTA系统。音频样本和代码可在 https://comosvc.github.io/ 获取。

关键词：歌声转换，扩散模型，一致性模型

### 1. 引言

歌声转换（SVC）旨在将一个歌手的声音转换为另一个歌手的声音，同时保持内容和旋律。在音乐娱乐、歌声美化和艺术创作中有广泛应用。传统的SVC方法需要源和目标歌手的并行训练数据，这通常难以实现，因此无并行的SVC方法成为主流。SVC通常采用两阶段方法：第一阶段提取歌手独立和依赖的特征；第二阶段通过替换歌手依赖特征生成转换后的音频。第二阶段对音质影响巨大，因此许多生成模型被用于SVC的解码，包括自回归（AR）模型、生成对抗网络（GAN）、正常化流和扩散模型。

尽管扩散模型方法如DiffSVC显著提高了转换性能，但其迭代采样过程导致推理速度慢。新提出的生成模型“一致性模型”实现了一步生成。受此启发，本文开发了一种基于一致性模型的SVC方法——CoMoSVC，旨在实现高质量、高相似性和高速的SVC。我们设计了一种扩散教师模型，具有出色的生成能力，并从中蒸馏出学生模型以实现一步采样。实验显示，CoMoSVC的采样速度比扩散模型的SoVITS-SVC和DiffSVC分别快约500倍和50倍，同时保持了可比的性能甚至在质量和相似性上有所提升。

### 2. 背景

扩散模型通过在前向过程中向数据中加入噪声，在逆向过程中重构数据结构。通常需要多次迭代来解决概率流ODE，使得采样速度较慢。而一致性模型基于自一致性属性，实现一步采样。

### 3. 提出的方法

CoMoSVC采用两阶段模型，第一阶段编码提取的特征和歌手身份为嵌入，第二阶段生成mel频谱图，进一步使用预训练声码器转为音频。

#### 3.1 编码

这一部分编码歌手独立和依赖的特征，包括内容、音高和响度特征，和歌手ID作为歌手依赖信息。

#### 3.2 解码

该阶段生成mel频谱图。我们首先训练教师模型并从中蒸馏出学生模型。教师模型使用EDM架构，学生模型通过一致性蒸馏实现一步采样。

### 4. 实验

实验在M4Singer和OpenSinger两个数据集上进行。所有音频重新采样至24kHz并标准化。训练于NVIDIA GTX 4090 GPU上进行，批量大小为48。对不同方法的重构能力和转换能力进行了评估。

### 5. 结论

CoMoSVC在高质量歌声转换中实现了显著的加速性能，实验结果表明其在转换性能和相似性上优于现有SOTA方法。