语音合成论文翻译:2019_MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

2021年11月25日 阅读数:1
这篇文章主要向大家介绍语音合成论文翻译:2019_MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

论文地址MelGAN:条件波形合成的生成对抗网络git

代码地址https://github.com/descriptinc/melgan-neuripsgithub

音频实例:https://melgan-neurips.github.io/算法

配有MelGAN解码器的音乐翻译网络:https://www.descript.com/overdub网络


摘要

  之前的工做(Donahue等人,2018a;Engel等人,2019a)已经发现用GAN生成相干的原始音频波形是一个挑战。在本文中,咱们证实了经过引入一系列结构变化和简单的训练技术,能够可靠地训练GANs以产生高质量的相干波形。主观评价指标(Mean-Opinion Score,简称MOS)代表了该方法对高质量mel谱图inversion(反推)的有效性。为了创建这些技术的通用性,咱们展现了咱们的模型在语音合成、音乐领域翻译和无条件音乐合成方面的定性结果。咱们经过烧蚀研究来评估模型的各个组成部分,并提出一套指导方针来设计条件序列合成任务的通用鉴别器和生成器。咱们的模型是非自回归的,彻底卷积的,参数明显少于竞争模型,而且能够推广到看不见的说话者进行梅尔谱图反演。咱们的Pytorch实如今GTX1080Ti GPU上的运行速度比实时快100倍以上,在CPU上比实时运行快2倍以上,而没有任何针对硬件的优化技巧。架构

一、引言

  建模原始音频是一个特别具备挑战性的问题,由于数据时间分辨率很高(一般至少16000个样本每秒),而且在不一样的时间尺度上存在短时间和长期的依赖关系。所以,与其直接建模原始时间音频,大多数方法一般对原始时间信号更低分辨率音频建模来简化问题。一般选择这样的表示形式比原始音频更容易建模,同时保留足够的信息以容许准确地倒转回音频。在言语方面,对齐的语言特征(Van Den Oord等人,2016)和mel-spectograms (Shen等人,2018;Gibiansky等人,2017)是两种经常使用的中间表示。所以,音频建模一般被分解为两个阶段。app

  1. 将文本转换成一种中间特征表示,而后对这种特征进行建模。
  2. 将中间表示法转换回音频。

  在本研究中,咱们关注的是后一阶段,并选择mel-spectogram做为中间表征。目前的mel-spectogram反演方法能够分为三类:ide

  1. 纯信号处理技术
  2. 自回归神经网络
  3. 非自回归神经网络

  咱们将在接下来的段落中描述这三种主要的研究方向。函数

纯信号处理方法性能

  不一样的信号处理方法已被探索,以找到一些方便的低分辨率音频表示,既能够容易地建模和有效地转换回时间音频。例如,Griffin-Lim(Griffin&Lim,1984)算法容许有效地将STFT序列解码回时域信号,代价是引入较强的机器人伪像,如Wang等人所述(2017)。目前已经研究了更复杂的表示和信号处理技术。例如,WORLD声码器(MORISE et al,2016)引入了一种中间类表示形式,专门针对基于相似于mel频谱图的特征的语音建模而设计。  WORLD声码器与专用信号处理算法配对,以将中间表示映射回原始音频。 它已成功用于进行文本到语音的合成,例如在Char2Wav中,其中WORLD声码器功能经过基于注意力的递归神经网络进行建模(Sotelo等,2017; Shen等,2018; Ping 等人,2017)。 这些纯信号处理方法的主要问题在于,从中间特征到音频的映射一般会引入明显的伪像。学习

基于自回归神经网络的模型

  WaveNet (Van Den Oord等人,2016)是一种全卷积自回归序列模型,能够根据与原始音频时间一致的语言特征生成高度真实的语音样本。它也可以产生高质量的无条件语音和音乐样本。SampleRNN (Mehri等人,2016)是一种实现无条件波形生成的替代架构,它使用多尺度递归神经网络在不一样时间分辨率上显式地为原始音频建模。WaveRNN (Kalchbrenner et al., 2018)是一种基于简单的单层递归神经网络的更快的自回归模型。WaveRNN引入了各类技术,如稀疏化和子尺度生成,以进一步提升合成速度。这些方法已经在文本到语音合成(Sotelo et al., 2017; Shen et al., 2018; Ping et al., 2017)和其余音频生成任务(Engel et al., 2017)中取得了最早进的成果。不幸的是,因为音频样本必须按顺序生成,所以使用这些模型进行推理的速度天生就很慢且效率低下。所以,自回归模型一般不适合实时应用。

非自回归模型

  近来,人们致力于开发非自回归模型以反转低分辨率音频表示。这些模型比自回归模型快几个数量级,由于它们具备高度可并行性,而且能够充分利用现代深度学习硬件(例如GPU和TPU)。如今已经出现了两种不一样的方法来训练这种模型。

1.)Parallel Wavenet(Oord等人,2017)和Clarinet(Ping等人,2018)将通过训练的自回归解码器提炼成基于流的卷积学生模型。使用基于Kulback-Leibler散度KL$KL[P_{student}||P_{teacher}]$以及其余感知损失项的几率蒸馏目标对学生进行了训练。

2.)WaveGlow(Prenger等人,2019)是基于流的生成模型,基于Glow(Kingma&Dhariwal,2018)。 WaveGlow是一种很是高容量的生成流,它由12个耦合和12个可逆1x1卷积组成,每一个耦合层由8层扩张卷积的堆栈组成。做者指出,须要为期8周的GPU培训,才能得到单个扬声器模型的高质量结果。尽管在GPU上推理速度很快,可是模型的庞大尺寸使其对于内存预算有限的应用程序不切实际。

GANs for audio

  到目前为止,还没有针对音频建模探索的一种方法是生成对抗网络(GAN)(Goodfellow et al,2014)。 GAN在无条件图像生成(Gulrajani等,2017; Karras等,2017,2018),图像到图像翻译方面(Isola等,2017; Zhu等,2017; Wang等2018b)和视频到视频合成(Chan等人,2018; Wang等人,2018a)取得了稳步进展。尽管它们在计算机视觉方面取得了巨大的成功,但在使用GAN进行音频建模方面,咱们尚未看到多少进展。Engel等人(2019b)使用GAN经过模拟STFT幅度和相位角来生成音乐音色,而不是直接模拟原始波形。 Neekhara等(2019)提出使用GANs来学习从梅尔频谱图到简单幅度频谱图的映射,并将其与相位估计相结合,恢复原始音频波形。Yamamoto等人(2019)使用GAN提取自回归模型,生成原始语音音频,可是他们的结果代表仅对抗损失不足以产生高质量的波形;它须要基于KL散度的蒸馏目标做为一个关键组成部分。迄今为止,使它们在此领域中良好运行一直是一项挑战(Donahue等,2018a)。

主要贡献

  • 咱们提出了MelGAN,一个非自回归前馈卷积架构,用于在GAN设置中生成音频波形。 据咱们所知,这是第一项成功培训GAN的原始音频生成工做,而没有额外的蒸馏或感知损失功能,同时仍能产生高质量的文本到语音合成模型的第一项工做。
  • 经过在通用音乐翻译、文本到语音的生成和无条件音乐合成方面的实验,咱们证实了自回归模型能够很容易地用快速并行的MelGAN解码器代替,尽管质量会有轻微的降低。
  • 咱们还代表,MelGAN大大快于其余mel-spectrogram反演方案。特别是,它比目前最快的型号快10倍(Prenger et al,2019),并且音频质量没有明显降低。

二、MelGAN模型

  在这一节中,咱们描述咱们的mel-spectrogram反演的生成器和鉴别器架构。咱们描述了模型的核心组件,并讨论了执行无条件音频合成的修改。咱们在参数数量和在CPU和GPU上的推理速度方面,将提出的模型与竞争方法进行了比较。 图1显示了总体架构。

2.1 生成器

架构

  咱们的生成器是一个彻底卷积的前馈网络,输入的信号为梅尔谱图,输出的原始波形为x。因为梅尔谱图在256x的时间分辨率上(用于全部实验),所以咱们使用一维转置卷积层对输入序列进行上采样。 每一个转置的卷积层后面是一堆带有扩张卷积的残差块。 与传统的GAN不一样,咱们的生成器不使用全局噪声矢量做为输入。 咱们在实验中注意到,当额外的噪声馈入发生器时,生成的波形几乎没有感知差别。 这是违反直觉的结果,由于$s --> x$的求逆涉及到一个一对多的映射,由于s是x的有损压缩。 可是,这一发现与Mathieu等人的观点一致。 (2015)和Isola等(2017),这代表若是条件信息很是强,则噪声输入并不重要。

感应感觉野(Induced receptive field)

  在基于卷积神经网络的图像生成器中,因为感应接受域的高度重叠,空间上靠近的像素点之间存在一种感应误差。 咱们设计的生成器架构,以产生一个感应偏置,即音频时间步长之间存在长距离相关性。咱们在每一个上采样层以后添加了带有扩张的残差块,这样在时间上,后续每一层的输出激活都有明显的输入重叠。 一叠扩展卷积层的接受场随层数的增长而指数增长。 与Van Den Oord等相似(2016年),将这些归入咱们的生成器使咱们可以有效地增长每一个输出时间步长的感应接收场。 这有效地暗示了相距较远的时间步长的感应接收场中存在较大的重叠,从而产生更好的长距离相关性。

Checkerboard artifacts

  正如Odena等人(2016年)所指出的,若是未仔细选择转置卷积层的内核大小和步幅,则反卷积生成器很容易生成“棋盘格”模式。 Donahue等人(2018b)对原始波形生成进行了研究,发现这种重复的模式会致使可听到的高频嘶嘶声。 为了解决这个问题,咱们仔细选择反卷积层的内核大小和步幅,做为Donahue等人(2018b)中引入的PhaseShuffle层的一个更简单的替代方案。 跟随Odena等人(2016),咱们使用内核大小做为跨步的倍数。 若是未正确选择扩张和内核大小,则这种重复模式的另外一个来源多是扩张卷积堆栈。 咱们确保扩展随核大小的增加而增加,这样堆栈的接受域看起来就像一个彻底平衡的(均匀地看到输入)和之内核大小做为分支因子的对称树。

标准化技术(Normalization technique)

  咱们注意到,生成器结构总选择归一化技术对于样品质量相当重要。用于图像生成的经常使用条件GAN架构(Isola等人,2017;Wang等人,2018b)在生成器的全部层中使用实例归一化(instance Normalization, Ulyanov et al.2016)。可是,在音频生成的状况下,咱们发现实例规范化会冲走重要的音高信息,使音频听起来具备金属感。根据Zhang等人和Park等人(2019)的建议,在生成器上应用频谱归一化(Miyato等人,2018)时,咱们也得到了较差的结果。。咱们认为,对鉴别器的强烈Lipshitz约束会影响用于训练生成器的特征匹配目标(在3.2节中进行了说明)。在全部可用的归一化技术中,权重归一化(Weight normalization)(Salimans和Kingma,2016)效果最好,由于它不会限制鉴别器的容量或对激活进行归一化。它只是经过将权重矢量的比例从方向上解耦来简单地从新参数化权重矩阵,从而得到更好的训练动力学。所以,咱们在生成器的全部层中使用权重归一化。

2.2 鉴别器

多尺度结构(Multi-Scale Architecture)

  在Wang et al. (2018b)以后,咱们采用了具备3个鉴别器(D一、D二、D3)的尺度架构,这些鉴别器具备相同的网络结构,但在不一样的音频尺度scale上运行。 D1操做在原始音频的尺度上,而D2; D3分别操做在原始音频下采样2倍和4倍的尺度上。 下采样是使用内核大小为4的strided average pooling。音频具备不一样层次的结构,所以能够激发不一样尺度的多个鉴别器。 这种结构具备感应误差,每一个鉴别器均可以学习音频不一样频率范围的特征。 例如,对下采样音频进行操做的鉴别器没法访问高频份量,所以倾向于仅基于低频份量学习鉴别特征。

基于窗的目标(Window-based objective)

  每一个单独的鉴别器都是基于马尔可夫窗口的鉴别器(相似于图像修复,Isola等人(2017)),由一系列kernel size的跨步卷积层组成。咱们利用分组卷积(grouped convolutions)来容许使用更大的内核,同时保持较小的参数数量。虽然标准GAN鉴别器学习在整个音频序列的分布之间进行分类,而基于窗的鉴别器学习在小音频块的分布之间进行分类。因为鉴别器损耗是在每一个窗口都很是大(等于鉴别器的感觉野)的重叠窗口上计算的,所以,MelGAN模型学习在各个块之间保持一致性。咱们选择了基于窗的鉴别器,由于它们已经被证实能够捕获基本的高频结构,须要较少的参数,运行速度更快,而且能够应用于可变长度的音频序列。与生成器相似,咱们在鉴别器的全部层中使用权重归一化。

图1:MelGAN模型架构。 每一个上采样层都是一个转置卷积,内核大小是步幅的两倍(与该层的上采样率相同)。256x上采样分为8x, 8x, 2x和2x上采样4个阶段。每一个残差扩张卷积叠加有三个层,分别为扩张一、扩张3和扩张9,核大小为3,总感觉野为27个时间步长。 咱们使用leaky-relu进行激活。 每一个判别器块具备4个步幅为4的步幅卷积。更多详细信息,请参见附录6。

2.3 训练目标

  为了训练GAN,咱们的GAN目标函数使用hinge损失版本 (Lim & Ye, 2017; Miyato et al., 2018)。咱们还试验了最小二乘(LSGAN)公式(Mao et al.,2017),并注意到hinge版本有轻微改进。

$$公式1:\min _{D_{k}} \mathbb{E}_{x}\left[\min \left(0,1-D_{k}(x)\right)\right]+\mathbb{E}_{s, z}\left[\min \left(0,1+D_{k}(G(s, z))\right)\right], \forall k=1,2,3$$

$$公式2:\min _{G} \mathbb{E}_{s, z}\left[\sum_{k=1,2,3}-D_{k}(G(s, z))\right]$$

其中x表示原始波形,s表示条件信息(例如。mel-spectrogram)和z表示高斯噪声向量

特征匹配

  除了鉴别器的信号外,咱们使用特征匹配损失函数(Larsen等,2015)来训练生成器。 该目标最小化真实音频和合成音频的鉴别器特征图之间的L1距离。 直观的说,这能够看做是学习的类似性度量,一个鉴别器学习了一个特征空间,从而从真实数据中鉴别出假数据。 值得注意的是,咱们没有使用任何损失的原始音频空间。 这与其余有条件的GAN(Isola等人,2017)相反,其中L1损失被用来匹配有条件生成的图像及其相应的ground-truths,以加强全局一致性。 实际上,在咱们的案例中,在音频空间中增长L1损耗会引入可听噪声,从而损害音频质量。

$$公式3:\mathcal{L}_{\mathrm{FM}}\left(G, D_{k}\right)=\mathbb{E}_{x, s \sim p_{\text {data }}}\left[\sum_{i=1}^{T} \frac{1}{N_{i}}\left\|D_{k}^{(i)}(x)-D_{k}^{(i)}(G(s))\right\|_{1}\right]$$

为了简化符号,$D_k^{(i)}$表示第$k$个鉴别器块的第$i$层特征图输出,$N_i$表示第一层的单元数,特征匹配相似于感知损失(Dosovitskiy & Brox, 2016; Gatys et al., 2016; Johnson et al., 2016)。在咱们的工做中,咱们在全部鉴别块的每一个中间层使用特征匹配。

$$公式4:\min _{G}\left(\mathbb{E}_{s, z}\left[\sum_{k=1,2,3}-D_{k}(G(s, z))\right]+\lambda \sum_{k=1}^{3} \mathcal{L}_{\mathrm{FM}}\left(G, D_{k}\right)\right)$$

2.4 参数数量和推理速度

  在咱们的体系结构中,概括误差使得整个模型在参数数量上明显小于竞争模型。因为是非自回归且彻底卷积的模型,所以咱们的模型推理速度很是快,可以在GTX1080 Ti GPU上以2500kHz的频率全精度运行(比最快的竞争模型快10倍以上),在CPU上达到50kHz(更多) 比最快的竞争机型快25倍)。 咱们认为咱们的模型也很是适合硬件特定的推理优化(例如Tesla V100的半精度(Jia等人,2018; Dosovitskiy&Brox,2016)和量化(如Arik等人(2017)所作的那样)),这将进一步提升推理速度,表1给出了详细的比较。

表1:参数数量和推理速度的比较。n kHz的速度意味着该模型能够每秒生成n*1000个原始音频样本。全部模型都使用相同的硬件进行基准测试

3 结果

  为了鼓励重现性,咱们在论文所附的代码中附加了代码:https://github.com/descriptinc/melgan-neurips

3.1 Ground truth mel-spectrogram反演

烧蚀研究  首先,为了理解咱们提出的模型的各个组成部分的重要性,咱们对重建的音频进行了定性和定量分析,以完成声谱图反演任务。咱们删除某些关键的体系结构决策,并使用测试集评估音频质量。表2显示了经过人类听力测试评估的音频质量的平均意见得分。每一个模型在LJ语音数据集上进行了40万次迭代训练(Ito,2017)。咱们的分析得出如下结论:生成器中没有扩展卷积堆栈或删除权重归一化会致使高频伪像。使用单个鉴别器(而不是多尺度鉴别器)会产生金属音频,尤为是在说话人呼吸时。此外,在咱们内部的6个干净的说话人数据集上,咱们注意到这个版本的模型跳过了某些浊音部分,彻底丢失了一些单词。使用频谱归一化或去除基于窗口的鉴别器损失会使咱们难以学习到清晰的高频模式,从而致使样本产生明显的噪声。在真实波形和生成的原始波形之间添加额外的L1惩罚,会使样本听起来像金属质感,并带有额外的高频伪像。

表2:消融研究的平均意见评分。为了评估由每一个组件引发的误差,咱们一次移除一个组件,并对每一个组件训练500个epoch的模型。评估方案/详情见附录B。

基准竞争模型  接下来,比较MelGAN在将ground truth mel-spectrograms转化为raw音频与现有方法(如WaveNet vocoder, WaveGlow, Griffin-Lim和ground truth audio)的性能,咱们运行了一个独立的MOS测试,其中MelGAN 训练模型直到收敛(大约2.5M迭代)。 与消融研究相似,这些比较是在LJ语音Datset训练的模型上进行的。 比较结果如表3所示。

表3:平均意见得分

  实验结果代表,MelGAN在质量上可与目前最早进的高容量基于波形的模型(如WaveNet和WaveGlow)相媲美。咱们相信,经过进一步探索将GANs用于音频合成的这一方向,在将来能够迅速弥补这一性能差距。

泛化到看不见的说话者

  有趣的是,咱们注意到,当咱们在包含多个说话者的数据集上训练MelGAN时(内部6个说话者数据集由3个男性和3个女性说话者组成,每一个说话者大约须要10个小时),结果模型可以推广到全新的(看不见的)说话者 在训练集外。 该实验验证了MelGAN是可以学习说话人不变的mel频谱图到原始波形的映射。

  为了提供一个易于比较的指标来系统地评估这种泛化(针对当前和将来的工做),咱们在公开的VCTK数据集上运行了MOS听力测试,用于实地梅尔谱图反演(Veaux等人,2017) 。 该测试的结果示于表4。

表4  VCTK数据集上的平均意见得分(Veaux et al., 2017)

3.2 端到端语音合成

  咱们在提出的MelGAN与竞争模型之间进行了定量和定性的比较,这些模型基于梅尔频谱图 inversion 用于端到端语音合成。 咱们将MelGAN模型插入端到端语音合成管道(图2),并使用竞争模型评估文本到语音样本的质量。

 图2:文本到语音的管道

  具体来讲,咱们比较了使用MelGAN进行频谱图反转与使用Text2mel((开源char2wav模型的改进版本))的WaveGlow时的样品质量(Sotelo等人,2017)。 Text2mel生成mel-谱图,而不是声码器帧,使用音素做为输入表示,并能够与WaveGlow或MelGAN耦合来反转生成的mel-谱图。 咱们使用此模型是由于它的采样器训练速度更快,而且不会像Tacotron2那样执行任何mel频率削波。 此外,咱们还采用了最早进的Tacotron2模型(Shen et al., 2018)和WaveGlow进行基线比较。咱们使用NVIDIA在Pytorch中心存储库中提供的Tacotron2和WaveGlow的开源实现来生成示例。在使用WaveGlow时,咱们使用官方存储库中提供的强度为0:01的去噪器来删除高频工件。MOS测试结果如表5所示。

  对于全部的实验,MelGAN都是在单个NVIDIA RTX2080Ti GPU上以批处理大小16进行训练的。咱们用Adam做为优化器,对于生成器和鉴别器的学习率为1e-4,$\beta _1=0.5$且$\beta_2=0.9$。定性分析的样本能够在附呈的网页中找到。您能够尝试根据上述端到端语音合成管道在此处建立的语音校订应用程序。

  结果代表,做为TTS管道的声码器组件,MelGAN能够与一些迄今为止性能最好的模型相媲美。为了更好地进行比较,咱们还使用Text2mel + WaveNet声码器建立了一个TTS模型。咱们使用Yamamoto(2019)提供的预训练过的WaveNet声码器模型,对Text2mel模型进行相应的数据预处理。然而,该模型得到的MOS评分仅为3.40+0.04。在咱们全部的端到端TTS实验中,咱们只在地面真值谱图上训练神经声码器,而后直接在生成的谱图上使用它。咱们怀疑Text2Mel + WaveNet实验的糟糕结果多是因为没有在生成的谱图上对WaveNet声码器进行校订(如在Tacotron2中所作的那样)。所以,咱们决定不在表格中报告这些分数。

3.3 非自回归解码器的音乐翻译

  为了证实MelGAN是健壮的,而且能够插入到目前使用自回归模型进行波形合成的任何设置中,咱们用MelGAN生成器替换了通用音乐翻译网络(Mor等人,2019)中的wavenet-type自回归译码器。

  在本实验中,咱们使用做者提供的预训练的通用音乐编码器,将16kHz的原始音频转换为64通道的潜在码序列,在时间维上下降采样因子800。这意味着该域独立潜在表示的信息压缩率为12.5。仅使用来自目标音乐域的数据,咱们的MelGAN解码器被训练来从咱们前面描述的GAN设置中的潜在代码序列重建原始波形。咱们调整模型的超参数,获得10,10,2,2,2的上采样因子,以达到输入分辨率。对于MusicNet上的每一个选定域(Thickstun et al.,2018),在可用数据上的RTX2080 Ti GPU上训练一个解码器4天。

  添加了MelGAN解码器的音乐翻译网络可以以良好的质量将任意音乐域的音乐翻译到它所训练的目标域。咱们将咱们模型中的定性样本与原始模型进行比较5。在RTX2080 Ti GPU上,加强版只需160毫秒就能翻译1秒的输入音乐音频,比在相同硬件上的原始版快2500倍。

3.4 VQ-VAE非自回归解码器

  为了进一步肯定咱们方法的通用性,咱们将矢量量化的VAEs (van den Oord et al., 2017)中的解码器替换为咱们提出的反向学习解码器。VQ-VAE是一种变分自编码器,它产生一个下采样离散潜编码的输入。VQ-VAE使用一个高容量自回归波网解码器来学习数据条件$p(x|z_q)$。

  图3显示了用于音乐生成任务的VQ-VAE的改编版本。在咱们的变体中,咱们使用两个编码器。该本地编码器将该音频序列编码成一个64向下采样的时间序列ze。而后使用码本将该序列中的每一个向量映射到512个量化向量中的1个。这与(van den Oord等人,2017)中提出的结构相同。第二个编码器输出一个全局连续值潜行向量y。

 图3:采用VQ-VAE模型进行无条件的音乐生成。在训练过程当中,本地编码器将输入信息沿时间维向下采样到一个序列$z_e$中,而后将其映射到一个向量嵌入字典中,造成$z_q$。全局编码器路径为带高斯后验的vanilla VAE模型的前馈路径。

  咱们展现了无条件钢琴音乐生成后续的定性样本(Dieleman等人,2018),其中咱们在原始音频尺度上学习单层VQVAE,并使用一个普通的自回归模型(4层LSTM, 1024单元)来学习离散序列上的先验。咱们无条件地使用训练好的递归先验模型对$z_q$进行采样,对y进行单位高斯分布的采样。定性地说,在相同的离散延迟序列的条件下,从全局潜在先验分布中采样会致使低电平的波形变化,如相移,但从感受上输出听起来很是类似。经过局部编码器($z_q$)获取的离散潜在信息被高度压缩,全局潜在信息能更好地捕捉到数据条件$p(x|z_q,y)$中的随机性,所以对提升重构质量相当重要。咱们使用大小为256的潜向量,并使用与mel-谱图反演实验相同的超参数进行训练。咱们使用4x、4x、2x和2x比率的上采样层来实现64x上采样。

4 结论及将来工做

  咱们介绍了一种专为条件音频合成而设计的GAN结构,并对其进行了定性和定量的验证,证实了所提方法的有效性和通用性。咱们的模型有如下优势:它很是轻量,能够在单台桌面GPU上快速训练,而且在推理时很是快。咱们但愿咱们的生成器能够是一个即插即用的替代方案,在任何较高水平的音频相关任务中计算量大的替代方案。

  虽然该模型能很好地适应训练和生成变长序列的任务,但它受到时间对齐条件信息要求的限制。实际上,它被设计用于输出序列长度是输入序列长度的一个因数的状况下,而在实践中并不老是这样。一样,基于成对的ground truth数据进行特征匹配也存在局限性,由于在某些状况下不可行。对于无条件综合,所提出的模型须要将一系列条件变量的学习延迟到其余更适合的方法,如VQ-VAE。学习用于音频的高质量无条件GAN是将来工做的一个很是有趣的方向,咱们相信这将受益于结合在本工做中介绍的特定架构的选择。

5 贡献

  做者要感谢NSERC、加拿大CIFAR AI主席、加拿大研究主席和IVADO提供的资助。

参考文献

Arik, S. Ö., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., Li, X., Miller, J.,Ng, A., Raiman, J., et al. Deep voice: Real-time neural text-to-speech. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 195–204. JMLR. org, 2017.
Chan, C., Ginosar, S., Zhou, T., and Efros, A. A. Everybody dance now. arXiv preprint arXiv:1808.07371, 2018.
Dieleman, S., van den Oord, A., and Simonyan, K. The challenge of realistic music generation:modelling raw audio at scale. In Advances in Neural Information Processing Systems, pp. 7989–7999, 2018.
Donahue, C., McAuley, J., and Puckette, M. Adversarial audio synthesis. arXiv preprint arXiv:1802.04208, 2018a.
Donahue, C., McAuley, J., and Puckette, M. Adversarial audio synthesis. arXiv preprint arXiv:1802.04208, 2018b.

Dosovitskiy, A. and Brox, T. Generating images with perceptual similarity metrics based on deep networks. In Advances in neural information processing systems, pp. 658–666, 2016.
Engel, J., Resnick, C., Roberts, A., Dieleman, S., Norouzi, M., Eck, D., and Simonyan, K. Neural audio synthesis of musical notes with wavenet autoencoders. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1068–1077. JMLR. org, 2017.

Engel, J., Agrawal, K. K., Chen, S., Gulrajani, I., Donahue, C., and Roberts, A. Gansynth: Adversarial neural audio synthesis. arXiv preprint arXiv:1902.08710, 2019a.
Engel, J., Agrawal, K. K., Chen, S., Gulrajani, I., Donahue, C., and Roberts, A. Gansynth: Adversarial neural audio synthesis. arXiv preprint arXiv:1902.08710, 2019b.
Gatys, L. A., Ecker, A. S., and Bethge, M. Image style transfer using convolutional neural networks.In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2414–2423,2016.
Gibiansky, A., Arik, S., Diamos, G., Miller, J., Peng, K., Ping, W., Raiman, J., and Zhou, Y. Deep voice 2: Multi-speaker neural text-to-speech. In Advances in neural information processing systems, pp. 2962–2970, 2017.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in neural information processing systems, pp.2672–2680, 2014.
Griffin, D. and Lim, J. Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2):236–243, 1984.
Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., and Courville, A. C. Improved training of wasserstein gans. In Advances in Neural Information Processing Systems, pp. 5767–5777, 2017.
Isola, P., Zhu, J.-Y., Zhou, T., and Efros, A. A. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.1125–1134, 2017.
Ito, K. The lj speech dataset. https://keithito.com/LJ-Speech-Dataset/, 2017.
Jia, Z., Maggioni, M., Staiger, B., and Scarpazza, D. P. Dissecting the nvidia volta gpu architecture via microbenchmarking. arXiv preprint arXiv:1804.06826, 2018.
Johnson, J., Alahi, A., and Fei-Fei, L. Perceptual losses for real-time style transfer and superresolution.In European conference on computer vision, pp. 694–711. Springer, 2016.
Kalchbrenner, N., Elsen, E., Simonyan, K., Noury, S., Casagrande, N., Lockhart, E., Stimberg, F.,Oord, A. v. d., Dieleman, S., and Kavukcuoglu, K. Efficient neural audio synthesis. arXiv preprint arXiv:1802.08435, 2018.
Karras, T., Aila, T., Laine, S., and Lehtinen, J. Progressive growing of gans for improved quality,stability, and variation. arXiv preprint arXiv:1710.10196, 2017.
Karras, T., Laine, S., and Aila, T. A style-based generator architecture for generative adversarial networks. arXiv preprint arXiv:1812.04948, 2018.
Kingma, D. P. and Dhariwal, P. Glow: Generative flow with invertible 1x1 convolutions. In Advances in Neural Information Processing Systems, pp. 10215–10224, 2018.
Larsen, A. B. L., Sønderby, S. K., Larochelle, H., and Winther, O. Autoencoding beyond pixels using a learned similarity metric. arXiv preprint arXiv:1512.09300, 2015.
Lim, J. H. and Ye, J. C. Geometric gan. arXiv preprint arXiv:1705.02894, 2017.
Mao, X., Li, Q., Xie, H., Lau, R. Y., Wang, Z., and Paul Smolley, S. Least squares generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision,pp. 2794–2802, 2017.
Mathieu, M., Couprie, C., and LeCun, Y. Deep multi-scale video prediction beyond mean square error. arXiv preprint arXiv:1511.05440, 2015.
Mehri, S., Kumar, K., Gulrajani, I., Kumar, R., Jain, S., Sotelo, J., Courville, A., and Bengio,Y. Samplernn: An unconditional end-to-end neural audio generation model. arXiv preprint arXiv:1612.07837, 2016.
Miyato, T., Kataoka, T., Koyama, M., and Yoshida, Y. Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018.
Mor, N.,Wolf, L., Polyak, A., and Taigman, Y. Autoencoder-based music translation. In International Conference on Learning Representations, 2019. URL https://openreview.net/forum?id=
HJGkisCcKm.
MORISE, M., YOKOMORI, F., and OZAWA, K. World: A vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems,E99.D(7):1877–1884, 2016. doi: 10.1587/transinf.2015EDP7457.
Neekhara, P., Donahue, C., Puckette, M., Dubnov, S., and McAuley, J. Expediting tts synthesis with adversarial vocoding. arXiv preprint arXiv:1904.07944, 2019.
Odena, A., Dumoulin, V., and Olah, C. Deconvolution and checkerboard artifacts. Distill, 2016. doi:10.23915/distill.00003. URL http://distill.pub/2016/deconv-checkerboard.Oord,
A. v. d., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., Driessche, G.v. d., Lockhart, E., Cobo, L. C., Stimberg, F., et al. Parallel wavenet: Fast high-fidelity speech synthesis. arXiv preprint arXiv:1711.10433, 2017.
Park, T., Liu, M.-Y., Wang, T.-C., and Zhu, J.-Y. Semantic image synthesis with spatially-adaptive normalization. arXiv preprint arXiv:1903.07291, 2019.
Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., and Miller,J. Deep voice 3: Scaling text-to-speech with convolutional sequence learning. arXiv preprint arXiv:1710.07654, 2017.
Ping, W., Peng, K., and Chen, J. Clarinet: Parallel wave generation in end-to-end text-to-speech.arXiv preprint arXiv:1807.07281, 2018.
Prenger, R., Valle, R., and Catanzaro, B. Waveglow: A flow-based generative network for speech synthesis. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621. IEEE, 2019.
Salimans, T. and Kingma, D. P. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. In Advances in Neural Information Processing Systems, pp.901–909, 2016.
Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang,Y., Skerrv-Ryan, R., et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), pp. 4779–4783. IEEE, 2018.
Sotelo, J., Mehri, S., Kumar, K., Santos, J. F., Kastner, K., Courville, A., and Bengio, Y. Char2wav: End-to-end speech synthesis. 2017.
Thickstun, J., Harchaoui, Z., Foster, D. P., and Kakade, S. M. Invariances and data augmentation for supervised music transcription. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.
Ulyanov, D., Vedaldi, A., and Lempitsky, V. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.
Van Den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N.,Senior, A. W., and Kavukcuoglu, K. Wavenet: A generative model for raw audio. SSW, 125, 2016.
van den Oord, A., Vinyals, O., et al. Neural discrete representation learning. In Advances in Neural Information Processing Systems, pp. 6306–6315, 2017.
Veaux, C., Yamagishi, J., MacDonald, K., et al. Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit. University of Edinburgh. The Centre for Speech Technology Research(CSTR), 2017.
Wang, T.-C., Liu, M.-Y., Zhu, J.-Y., Liu, G., Tao, A., Kautz, J., and Catanzaro, B. Video-to-video synthesis. In Advances in Neural Information Processing Systems (NIPS), 2018a.
Wang, T.-C., Liu, M.-Y., Zhu, J.-Y., Tao, A., Kautz, J., and Catanzaro, B. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8798–8807, 2018b.
Wang, Y., Skerry-Ryan, R., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z.,Bengio, S., et al. Tacotron: Towards end-to-end speech synthesis. arXiv preprint arXiv:1703.10135,2017.
Yamamoto, R. r9y9/wavenet_vocoder, Oct 2019. URL https://github.com/r9y9/wavenet_vocoder.
Yamamoto, R., Song, E., and Kim, J.-M. Probability density distillation with generative adversarial networks for high-quality parallel waveform generation. arXiv preprint arXiv:1904.04472, 2019.
Zhang, H., Goodfellow, I., Metaxas, D., and Odena, A. Self-attention generative adversarial networks. arXiv preprint arXiv:1805.08318, 2018.
Zhu, J.-Y., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycleconsistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp. 2223–2232, 2017.

附录A 模型架构

表6:mel光谱图反演任务的生成器和鉴别器架构

 

 图4 残差堆栈架构

 附录B:超参数和训练细节

  咱们在全部实验中使用的批量大小为16。 Adam的学习速率为0.0001,B 1 = 0.5且B2 = 0.9被用做生成器和鉴别器的优化器。咱们使用10做为特征匹配损失项的系数。 咱们使用pytorch来实现咱们的模型,该模型的源代码随此提交一块儿提供。对于VQGAN实验,咱们使用大小为256的全局潜矢量,其中KL项限制在1.0如下,以免后部崩溃。 咱们在Nvidia GTX1080Ti或GTX 2080Ti上训练了咱们的模型。在补充材料中,咱们将重建样本显示为历时总数和挂钟时间的函数。 咱们发现咱们的模型在训练的很早就开始产生可理解的样本。

附录C:评价方法- MOS

  咱们进行了平均意见评分(MOS)测试,以比较咱们的模型与竞争体系结构的性能。 咱们经过收集由不一样模型生成的样本以及一些原始样原本构建测试。 在训练过程当中没有看到全部生成的样本。 MOS得分是根据200我的的整体计算得出的:要求他们每一个人经过对1到5个样品进行评分来盲目评估从该样品池中随机抽取的15个样品的子集。对样品进行展现并一次对其进行评级 由测试人员。 测试是使用Amazon Mechanical Turk进行的众包,咱们要求测试人员戴上耳机并讲英语。 在收集全部评估以后,经过平均分数$m_i$来估计模型$i$的MOS分数$\mu_i$。 来自不一样模型的样本。 此外,咱们计算得分的95%置信区间。$\hat{\sigma }_i$是所收集分数的标准误差。

$$\hat{\mu}_{i}=\frac{1}{N_{i}} \sum_{k=1}^{N_{i}} m_{i, k}$$

$$C I_{i}=\left[\hat{\mu}_{i}-1.96 \frac{\hat{\sigma}_{i}}{\sqrt{N_{i}}}, \hat{\mu}_{i}+1.96 \frac{\hat{\sigma}_{i}}{\sqrt{N_{i}}}\right]$$