一键生成视频,用 PAI-EAS 部署 AI 视频生成模型 SVD 工作流

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 本教程将带领大家免费领取阿里云PAI-EAS的免费试用资源,并且带领大家在 ComfyUI 环境下使用 SVD的模型,根据任何图片生成一个小短视频。


1. SVD技术介绍

Stable Video Diffusion(以下简称 SVD),是一个图像到视频模型模型,能够以每秒 3 到 30 帧的可自定义的帧率生成 14 帧和 25 帧的视频。去年 11 月,Stability.AI 发布了它的 1.0 版本。

而这个1.1版本的模型经过训练,可在 1024x576 的分辨率下生成 25 帧。总体上他是一个生成短视频,类似gif形式的一个模型,而这个也是目前来说开源并且在直接生成视频的模型效果比较好的一个了。

还有一点需要注意,这个 SVD 和我们常用的生成视频类的操作,比如它和 AnimateDiff 相比,这是不一样的技术。但他们也可以同时放在一起使用,比如我们先用 SVD 生成一个视频,hires提升分辨率后再用 AnimateDiff 重绘等等,这又是后话了。


2. 资源领取

点击 领取 PAI-EAS 免费试用 1 个月 A10/V100 资源。注意这个免费每日是有一定限额的,先到先得哦~



等待开通完成,点击前往控制台


如果免费额度用完了,可以购买 PAI-EAS 59元抵扣200元资源包


来到 PAI 控制台后,推荐大家在这里切换区域为 华北 2(北京),组合开通勾选OSS的选项,因为已经开通过所以默认勾上了。然后等待部署,部署完成后就可以前往默认工作空间。


找到左侧的 EAS 服务来部署一个实例。首次使用的时候我们需要先开通授权一下服务。

3. 部署ComfyUI

点击部署服务,自定义部署。


自定义输入实例名称,然后在镜像内找到comfyui,版本选择0.3。


image.png


在下面选择资源信息,注意这里非常重要,需要选择试用活动的GPU,推荐大家选择A10的GPU,如果缺货也可以选择 V100、T4 等。


选择完成,都配置好后,我们点击部署,等待部署完成。由于这个镜像预制好了很多节点,所以部署可能要等上几分钟到10分钟左右。如果觉得等了很久也可以点进去服务日志查看日志输出,部署情况。等到看到这行“运行中”,即为部署完成了,我们就可以直接进入ComfyUI了。


4. 启动ComfyUI进行模型推理

  1. 单击目标服务的服务方式列下的查看Web应用


2. 在WebUI页面进行模型推理验证。

我们前面提到了SVD是一个图片生成视频的模型,所以这里左侧是一个文生图的工作流,首先生成了一张图片。然后再把这张图片输入到右侧的SVD模型,进行视频生成。

根据需要,选择文生图的模型和图生视频的模型,本方案使用默认配置。然后在CLIP文本编码器中输入Prompts,修改长宽为16:9(例如384:216),单击提示词队列, 等待工作流运行完成即可获得AI生成的视频。



3. 请在【合并为视频】将视频改为GIF格式,视频生成后,右键单击生成的视频,选择 Save preview保存图像,即可将生成的GIF格式视频保存到本地,通过活动页【提交作品】参与活动!


5. ComfyUI 参数讲解

左侧的文生图可以调节模型,分辨率。然后是正负prompt,采样时候的种子,采样器等等。都可以随意修改。



然后来看SVD这边的参数。首先就是这个SVD 图像到视频的条件。设置宽、高,这个是视频的分辨率,不要调的太大。然后是帧数,就是一共生成多少帧。动态bucketid这个值越大,画面运动幅度越大。帧率就不用多说了。



然后是这个线性CFG引导。这个摆的位置有些靠下,其实他是在模型和k采样器之间的。他的作用是在不同的帧之间,按线性来缩放CFG值,他会从这个最小CFG值随着帧数按线性增大到K采样器设置的值。比如我们这个节点设置了为1,那么实际上的CFG就是跟随帧数从1变化到2.5。


整体来说,这个工作流就是一个入门的文生视频工作流,如果我们有需要,也可以把生成图像部分换为自己的一个图像输入,就是最原本的SVD图生视频了。

那么后续还有没有更高级的玩法呢?当然有,这里采样器输出的是每一帧的图像,我们当然也可以为他接上高清修复的流程,让他能放大,再接个其他的重绘流程都是可以的。后续就留给大家任意发挥了~


6. 常见问题

更多操作问题可参考


答疑群:加入【PAI-AIGC活动答疑群】搜索钉群: 52485000325

活动链接

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
3天前
|
机器学习/深度学习 人工智能 TensorFlow
生成完美口型同步的 AI 数字人视频
在当今数字媒体和人工智能技术的推动下,生成完美口型同步的AI数字人视频成为备受关注的研究领域。本研究旨在开发一种技术,能够实现生成完美口型同步的AI数字人视频,使虚拟人物的口型与语音内容完美匹配。采用了深度学习方法,结合了语音识别、面部运动生成和视频合成技术,以实现这一目标。通过语音识别模型将输入的文本转换为音频波形,利用面部运动生成模型根据音频波形生成对应的面部动作序列,这些动作序列可以准确地反映出发音的口型和面部表情,最后生成口型同步的AI数字人视频。这项技术具有广泛的应用前景,可用于虚拟主持人、教育视频、学习平台等领域,提升视频内容的真实感和沟通效果。
22 0
|
4天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
2365 1
|
4天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
4天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
20 0
|
4天前
|
机器学习/深度学习 敏捷开发 人工智能
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
29 0
|
4天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1749 0
与世界同行 2017中国人工智能大会有感

热门文章

最新文章

http://www.vxiaotou.com