大家好,欢迎来到IT知识分享网。
介绍
BiGAN
- 输入image x(x是数据集中的真实图片),经过编码器E得到E(x)
- 从某个分布(如高斯分布、均匀分布等)中采样随机噪声z,经过解码器G得到G(z)
- 通过上述两步,我们可以得到一系列(x, E(x))和(G(z), z),前者是Encoder产生的,后者是Generator产生的,将这些结果输入到Discriminator中,让它判断是E还是G产生的;如果D不能准确判断,那么就成功了。
总之,BiGAN 使得 GAN 具有了学习有意义的特征表示的能力。原始 GAN 中,D 接收样本作为输入, 并将其习得的中间表示作为相关任务的特征表示, 没有其他的机制。它对于生成数据与真实数据的语义上有意义的特征并不十分清晰。当 G 生成了真实数据时,D 只能预测生成数据(图片)的真实性,但是无法学习有意义的中间表示。BiGAN 就是希望让 GAN 能够具备表征学习能力。
BigGAN
- 证明了大规模的训练能给GAN带来巨大提升,介绍了两个简单的,一般的体系结构更改使得提高网络的性能;
- 提出了一种简单的采样技术——truncation trick(截断技巧),允许对样本多样性和保真度之间的权衡进行明确、细粒度的控制;
- 发现了大规模GAN特有的不稳定性,并根据经验对其进行了表征。 通过分析,我们证明了新技术和现有技术的结合可以减少这些不稳定性,但完全的训练稳定性只能以极高的性能成本实现。
还有在一些较大的模型不适合截断,在嵌入截断噪声时会产生饱和伪影,如上图 (b) 所示,为了抵消这种情况,文章通过将 G 调节为平滑来强制执行截断的适应性,以便 z 的整个空间将映射到良好的输出样本,并采用正交正则化解决该问题,具体公式还没有太理解,感兴趣的可以去看原文。
为了保证网络的稳定性,在训练G和D的时候还借助于数学推导,对参数等做了很多限制,比如Spectral Norm等方法。
总之,BigGAN其实是提供了一种大规模训练GAN的方法,并且针对具体训练过程中可能存在的不稳定性提出了一些应对技巧。但是不得不说,从结果来看,这种方法对于GAN的效果提升是巨大的。
BigBiGAN
bidirectional GAN (BiGAN)的核心就是Bi(双向):在原始的GAN架构里,生成器是个前馈过程,将随机噪声分布中取样的潜变量,映射到生成的数据 (假图) 上面。而BiGAN中的编码器把真实数据 (真图) 映射到潜变量上,这样就有了两种不同方向的映射,成了双向GAN。但是,BiGAN的生成器是DCGAN的结构,生成不了高质量的图像,这样导致另一个方向上编码器学到的特征映射也会受影响。BigGAN弥补了DCGAN的不足,因此BigGAN与BiGAN结合便有了Large Scale Adversarial Representation Learning (BigBiGAN)。
论文中提到的主要贡献有四点:
- 在ImageNet上,BigBiGAN(带BigGAN的BiGAN生成器)达到了无监督表征学习的最新技术水平
- 为BigBiGAN提出了一个更稳定的联合判别器
- 对模型设计的选择进行了全面的实证分析和消融实验
- 表明了表征学习目标还有助于无条件图像生成,并展示无条件ImageNet生成的最新结果
消融实验(ablation study): 取消掉一些模块后性能有没有影响。根据奥卡姆剃刀法则,简单和复杂的方法能达到一样的效果,那么简单的方法更可靠。比如你提出了某某结构,但是要想确定这个结构是否有利于最终的效果,那就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比,这就是ablation study。
表征学习效果: 为了证明其表征学习能力,作者也将 BigBiGAN 的最佳组合(上表中的最后两行)在 ImageNet 上就准确率与最近效果较好的自我监督方法进行了比较。其中 BN+CReLU 是在 AvePool 的结果 a 的基础上,先进行 h = BatchNorm(a) 操作,并将 [ReLU(h), ReLU(-h)] 作为最终特征输出,这种输出方法也叫 CReLU。其中 BatchNorm() 表示无参数 Batch Normalization,所以这个新加的操作并不会增加计算成本;而 CReLU 的加入则让结果变得更加全面,从而获得更好的输出结果。具体结果如下表所示:
最后,作者回归 GAN 最原始的任务——图像生成,将其与BigGAN的方法进行了对比。下表第一行中的 SL 表示 single label 方法,产生的是一种单混和标签;而 Clustering 表示标签是由 Clustering 获得的,是一种伪标签。最后,因为在 500K 步后,BigBiGAN High Res + SL 的效果还有提升,所以最后一行也加入了 1M 步后的结果。详细结果见下表。
总结
BiGAN通过双向的思想,赋予了潜变量更加深刻的含义,使得编码器能够学习到有意义的中间特征表示,从而用于表征学习,但受限于DCGAN中生成器的效果,中间特征表示的学习效果并不理想。BigGAN借助于大规模的学习和训练方法,在生成图片的效果上取得了巨大的进步,自然就有了BigBiGAN的出现。BigBiGAN 提出了联合判别器的结构,但作为一种完全基于 Generative Model 的方法,无监督表征学习的准确率上比监督学习的方法还是要差很多的。未来是否能如同半监督学习一样,结合 Generative Model 与监督学习产出一种新的更高效且准确率也很高的方法?这可能是下一步需要研究的方向。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/127506.html