文生图模型-Stable Diffusion | AIGC

简介: 所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

文生图模型-Stable Diffusion

什么是生成式模型

所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型。

image.png

在Diffusion扩散模型之前,经典的生成模型是GAN和VAE。GAN是生成对抗网络(Generative Adversarial Network)的简称,是一种用于生成模型的深度学习框架。GAN由两个神经网络组成:生成器和判别器。生成器网络负责生成新样本,而判别器网络负责判断这些样本是真实的还是生成的。这两个网络相互对抗,通过不断的博弈和调整参数,最终达到生成逼真的样本的目的。最后通过采样一个随机分布来生成和训练数据分布相同的图片。

image.png

而VAE是变分的自回归模型,通过学习图片的潜在空间表示来生成图片。

image.png

扩散模型Diffusion

扩散一词来源于物体物理状态的变化,比如房间中的气味由浓逐渐扩散到周围,最终房间的气味处于一个平衡的状态,再比如热力的传播。

扩散模型(Diffusion Model)分为前向和逆向操作,前向阶段对图像逐步施加噪声, 直至图像被破坏变成完全的高斯噪声, 然后在逆向阶段学习从高斯噪声还原为原始图像的过程。

image.png

image.png

那么扩散模型是如何训练?训练的过程就是预测所加噪声的过程,模型是一个Unet模型。

  • 正向:第i步的图像+高斯噪声=第i+1的图像
  • 训练Unet时:输入第i+1的图像,预测的GT是所加的高斯噪声,复原过程就是第i+1的图像-高斯噪声

image.png

image.png

image.png

通过多步的操作,最终从一个采样的高斯噪声,逐步去噪还原回清晰图像的过程。每一步的Unet模型是共享参数的,所以需要额外的输入步长的信息,告知模型这个在做第几步的去噪。

最早的扩散模型(DPM)需要近1000步才能还原图像,这极大的增加了推理的时间。

于就有很多研究针对如何加快采样来减少推理时间的方法,通常就是我们说的Sampling method, 比如DPM++SDE等

扩散模型涉及到几个重要的概念:

  • 步长Step:
  • 采样策略:

一张图总结下VAE、GAN和Diffusion Model的区别

image.png

Stable Diffusion

从上面可知,Diffusion扩散模型是一个简单且高效的生成式模型。但是离本次要讲的文生图还有一定差别。

还差的环节是文本如何添加到扩散模型里。如果有一个模型可以很好的匹配文本和图像,就可以文本生成的图像向量作为额外的条件加到扩散模型里(有条件的扩散模型)

这个模型就是CLIP模型,CLIP模型是典型的多模态的对比学习模型,通过文本和图像的配对数据,分布对文本和图像进行编码,优化两者向量的相似度,使得配对的两向量相似度最大。

image.png

OPENAI的DALE-2利用clip生成文本和图像向量配对,训练一个文本映射到图像向量的模型,得到图像向量模型,在通过diffusion模型生成图片,达到文生图的目的。

image.png

而Stable Diffusion有些不同,总体的流程见下图,不同之处在于:

image.png

  • 最右边是条件输入,可以引导模型生成的结果,针对文生图,先用预训练模型将文本转换text token embedding,预训练模型可以是CLIP也可以是其他GPT模型
  • 为了融合图通的条件输入,采用一个cross attention的方式添加到Diffusion去噪过程中
  • 另外一个不同是:diffusion的模型输入是图像尺寸大小,这样推理速度较慢。Stable Diffusion将输入改成图像的一个潜在空间的向量表示。那怎么将图像转换为向量表示呢?答案是VAE。也就是上图中最左边,预训练一个VAE模型,将图像encode潜在空间表示,经过diffusion去噪过程,得到一个恢复的潜在变量,经过一个decode恢复成图像。
    image.png

image.png

参考资料

目录
相关文章
|
4天前
|
机器学习/深度学习 人工智能 数据管理
文生图的基石CLIP模型的发展综述
CLIP(Contrastive Language-Image Pre-training)是OpenAI在2021年发布的多模态模型,用于学习文本-图像对的匹配。模型由文本和图像编码器组成,通过对比学习使匹配的输入对在向量空间中靠近,非匹配对远离。预训练后,CLIP被广泛应用于各种任务,如零样本分类和语义搜索。后续研究包括ALIGN、K-LITE、OpenCLIP、MetaCLIP和DFN,它们分别在数据规模、知识增强、性能缩放和数据过滤等方面进行了改进和扩展,促进了多模态AI的发展。
114 0
|
4天前
|
人工智能 算法
52个AIGC视频生成算法模型介绍(中)
52个AIGC视频生成算法模型介绍(中)
99 4
|
3天前
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(二)
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(二)
|
3天前
|
编解码 人工智能 自然语言处理
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(一)
Stable Diffusion文生图-图生图-ControINet插件-线稿上色-生产全套表情包-3D Openpose-局部重绘-换衣服,换姿势人设三视图一键生成教程大全(一)
|
4天前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
33 1
|
4天前
|
机器学习/深度学习 数据采集 人工智能
人类生产力的解放?揭晓从大模型到AIGC的新魔法
本文从介绍大模型的概念延伸到大模型的革命意义。作者讲述了通过大模型的加持,让AIGC有了更多的可能性。
126814 6
|
4天前
|
机器学习/深度学习 人工智能 达摩院
52个AIGC视频生成算法模型介绍(上)
52个AIGC视频生成算法模型介绍(上)
357 3
|
4天前
|
机器学习/深度学习 人工智能 算法
52个AIGC视频生成算法模型介绍(下)
52个AIGC视频生成算法模型介绍(下)
71 3
|
4天前
|
机器学习/深度学习 人工智能 API
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
124 4
薅羊毛!阿里云免费GPU云主机畅玩AI绘画,免费领取阿里云v100显卡搭建AI绘画利器Stable Diffusion
|
4天前
|
人工智能 自然语言处理 搜索推荐
阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
【2月更文挑战第17天】阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
243 5
阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
http://www.vxiaotou.com