当前位置：首页 >新媒易动态 >新媒体服务

依据这些信息构出一个超多维的数据库，每一个维度都会和其他维度交叉起来

2023-09-26

依照上面所说的原理，图片是被一点点抹去马赛克的，但是我写的文本信息是怎么匹配到某一个马赛克图片的呢？

咱们都知道，目前AI绘画最主流的使用方式便是在模型或软件里，输入一句话（俗称Prompt），能够写主体、布景、人物、风格、参数等等，然后发送，就能够得到一张图。

比如，“一个穿背带裤打球的鸡”，效果如下：

图画制作：Source: Designed byLiunn

AI绘画底层也是大模型，是一个图画模型。

最早的时分文本操控模型的做法是让模型生成一堆图片，然后再让分类器从中选出一个最符合的，这种方式没什么欠好，唯一的缺陷便是当数据量大到必定程度的时分，就会溃散（想象一下，用excel处理上百亿行的数据，是不是担负很大）。

所以一方面需要十分多的图片数据来训练，另一方面又需要高效且快捷的处理，能承担这个任务的，便是Openai在21年推出的OpenCLIP。

CLIP的工作原理其实能够简略理解为：爬虫、文本+图片的信息对。

第一，先看CLIP的爬虫和数据库。

CLIP的最大亮点之一便是采用了十分多的数据，构成了一个庞大的数据库。

每次CLIP爬取到一张图片后，都会给图片打上对应的标签以及描绘（实际CLIP 是依据从网络上抓取的图画以及其 “alt” 标签进行训练的）

Source:https://jalammar.github.io/illustrated-stable-diffusion/，引自Jay Alammar博客

然后从768个维度从头编码这些信息（你能够理解为从768个不同的角度来描绘这个图）。

然后依据这些信息构出一个超多维的数据库，每一个维度都会和其他维度交叉起来。

同时类似的维度会相对挨近在一起，依照这种方式CLIP不断爬取，最终构建了一个大概4~5亿的数据库。

图画制作：Source: Designed byLiunn

第二，再看CLIP的文本图画匹配才能。

OK，有了数据库，库里的图画怎么和输入的文字匹配呢？这里又分两个过程：

过程01，怎么具有文本-图画匹配的才能。

先看下图，是算法的原理图，看不懂没关系，我在下面从头制作了一幅降维版的示意图。

Source: https://github.com/openai/CLIP

咱们来看下面这幅示意图，CLIP是怎么辨认文本和图画的相关。

这里是一个简化的算法模型，其本质是不断地经过很多数据来训练CLIP去相关、认识图片和文字，而且依据和答案的比对，不断地纠正，最后达到准确匹配关键词和特征向量。

过程02，怎么去做文本-图画匹配的相关。

好了，咱们再来看CLIP是怎么做到文本图画的匹配的。

当咱们开端作画时，会录入文本描绘（即Prompt），CLIP模型就会依据Prompt去上面的数据库里从768个维度进行类似度的匹配，然后拿图画和文本编码后的特征去计算出一个类似性矩阵。