ai生成图片原理 ai生成图片包含两个部分:蓝色的用于理解描述的自然语言处理器和红色的用于生成结果的生成器。 在自然语言处理部分,它将我们输入的文本转换为数字表示,也就是蓝色的部分。对于不同的文本,其转换为的数字量也有区别,这就是显示在我们输入框右下角的输入量。 被蓝色的自然语言处理器解析后的输入表述会通过CLIP网络结合图像,以数组的形式保存下来,即下图中蓝色方格的token embedding。 CLIP网络就是理解tags如何被写入模型的关键点。下图就是CLIP网络在训练过程中是如何将tags与图像进行结合的。 输入的文字描述和图片将会经过两个不同的Encoder(神经网络)进行编码,形成两串数组。在CLIP中,它们将进行对比训练,从而将文本和图片一一对应上。这个过程就是训练这两个Encoder,之后这两个Encoder会在text2img和img2text中发挥作用。 在上图第一部分中,Encoder会有顺序地一个个编码输入的tags,然后根据相关性计算找到最接近原意的token。 每一组输入词会形成一个token集合,这个集合可以看作一个数组。在上图的第二部分中,这 ...