当前位置：首页 >新媒易动态 >新媒体服务

跨过了生成模型时代后，分散模型的时代到来了

2023-09-26

图画绘制：Source: Designed byLiunn

最后，当找到最类似的维度描绘后，把这些图画特征悉数融合到一同，构建出本次要产出的图画的总图画特征向量集。

至此，输入的一段话，就转换成了这次生成图画所需要的悉数特征向量，也便是AI所谓的现已“理解了你想画什么样的画了”。

这个跨过现已算是AI界的“登月一小步”了

有了CLIP的这个创新举措，根本上彻底打通了文字和图片之间的鸿沟，搭建了一个文本和图画之间相关的桥梁，再也不需要曾经图画处理界的打标签的方式来不断堆人了。

第二个问题：原始噪声图的来历

上面讲到AI绘画是把“马赛克”一点点抹掉，那所谓的“马赛克”图，也便是噪声图是怎样来的呢？

噪声图的是分散模型生成的，先记住这个概念“分散模型”。

讲分散模型之前，需要先讲另一个概念，AI生成图片的过程，其实是人工智能领域的一个分支，生成模型（Generative Model）。

生成模型主要是生成图画的，通过扔进去很多真实的图片让AI不断去了解、知道和学习，然后依据训练作用，自己生成图片。

在生成模型里，有个主动编码器的东西，它包括两个部分：编码器和解码器。

编码器能够把比较大的数据量紧缩为较小的数据量，紧缩的条件是这个较小的数据量是能够代表最开端的大数据量的；

解码器能够依据这个较小的数据量在适当的条件下，还原为最开端的的大数据量。

所以这个时分就有意思了：

能否直接给它一个较小的数据量，看看它自己能随机扩大成一个什么样的大数据量？

图画绘制：Source: Designed byLiunn

答案是能够的，但，测验作用很一般。

所以主动编码器不行了，怎样办呢，科学家发明晰另一个东西，叫VAE（变分编码器，Variational Auto-encoder）。

VAE是做什么的，主要是把较小的数据量进行规则化，让其符合高斯分布的概率。

这样就能够依据这个，来调整一个图片信息依照概率的改动进行对应的改动，但是有个问题，这个太依赖概率了，大部分概率都是假定的抱负情况，那怎样办呢？

所以这个时分科学家就想，能不能做两个AI，一个担任生成，一个担任查验它生成的行不行，也便是AI互相评估真假，这便是GAN，对抗神经网络诞生了。

GAN一方面生成图片，一方面自己检测行不行，比方有时分有些图片细节没有依照要求生成，检测的时分GAN发现了，它后面就会不断加强这块，最终让自己觉得成果能够，这样不断地迭代成千上亿次，最终生成的成果，检测也OK的时分，便是生成了一个AI的图片了。

但问题又来了

GAN一方面自己做运动员，一方面自己做裁判，太忙了，不只消耗很多的计算资源，同时也简单犯错，稳定性也欠好，那怎样办呢？能不能让AI别搞这么杂乱，用一套流程完成呢？

答案是必定的，这便是跨过了生成模型时代后，分散模型的时代到来了。

话题回到分散模型这儿。

分散模型最早是由斯坦福和伯克利学术专家，在2015年相关论文里提出的，依据正态分布给图画逐渐增加噪声，到了2020年加噪声的过程被改为依据余弦类似度的规则来处理。（文末附上了15年和20年的原始学术论文链接，感兴趣能够自行阅览）

依据余弦调度逐渐正向分散原始图，就像把一个完好的拼图一步一步拆开，直至彻底打乱。

图画绘制：Source:Designed byLiunn

到这儿，第二个问题也解决了。当你看到这儿的时分，AI绘画的输入信息根本Ready了。

AI把文字转成了特征向量了，也拿到噪声图片了，但噪声图是怎样一点点被去除“马赛克”的呢？

它是怎样消除去马赛克的呢？这儿面分为两个过程：

过程一，降维数据运算，提高运算功率；

过程二，规划降噪网络，辨认无用噪声，精准降噪。

先看过程一：还记得上文说到的主动编码器么？

图画特征向量和噪声图，会一同扔到编码器里进行降噪，也便是去除马赛克的过程。

但是这儿有个问题，便是一张512*512的RGB图片就需要运算786432次，即512*512*3=786432条数据，这个运算量太大了

所以在这些数据在进入到编码器之前，都会被紧缩到潜空间里去，降维到64*64*4=16384条数据（不知道你有没有用SD的时分注意到，我们在Stable Diffusion里调整图画巨细的时分，最小只能拖到64px，这便是其中的原因）。

这样的话，整个文生图的任务就能够降维到消费级的GPU上运算（虽然现在算力依然是个问题，A100都没有吧？有的话私我！）

降低了落地门槛，运算和装备功率都得到了极大的提高。

再看过程二：规划一个降噪网络。

理解了数据降维的问题，我们继续看，AI怎样逐渐去除噪声生成新图呢，图画编码器又是怎样给图画降噪，从而生成一张全新的图片的呢？