超越Sora极限,120秒超长AI视频模型诞生!

简介: 【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

随着人工智能技术的飞速发展,AI视频生成领域迎来了一次重大突破。最近,一项名为StreamingT2V的新技术引起了广泛关注,它成功地将文本描述转化为长达120秒的连贯视频内容,这一成就不仅超越了以往的技术限制,更为未来的多媒体创作和内容生产打开了新的可能性。

传统的文本到视频的转换模型,如Sora等,虽然能够根据文本指令生成高质量的短视频,但往往受限于视频长度和动态复杂性。这些模型在尝试生成更长视频时,常常出现场景转换不自然、画面停滞等问题。而StreamingT2V的出现,正是为了解决这些长期困扰研究者的问题。

StreamingT2V的核心在于其自回归的方法论,它通过短期记忆模块——条件注意模块(CAM)和长期记忆模块——外观保持模块(APM),以及一种随机混合方法,确保了视频内容的连贯性和动态性。CAM通过注意力机制,利用前一视频块的特征信息,生成新的内容,而APM则从初始帧提取高层次的场景和对象特征,确保在视频生成过程中保持对象和场景的一致性。此外,随机混合方法的应用,使得视频增强过程在自回归过程中不会出现时间上的不一致性。

在实际测试中,StreamingT2V展现了其卓越的性能。它不仅能够生成具有丰富动态和高帧级图像质量的长视频,而且在与现有技术的比较中,无论是在视频的连贯性、文本对齐还是每帧质量上,都显示出明显的优势。尤其是在动态性方面,StreamingT2V能够生成高运动量的视频,而其他方法则容易出现视频停滞。

然而,尽管StreamingT2V取得了显著的成果,但仍有一些挑战和局限性需要克服。例如,尽管APM模块在保持场景和对象特征方面表现出色,但在处理更复杂的场景和对象变化时,可能仍需要进一步的优化。此外,随机混合方法虽然有效,但在处理连续性要求更高的视频内容时,可能需要更精细的调整。

论文地址:https://arxiv.org/abs/2403.14773

目录
相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
3天前
|
机器学习/深度学习 人工智能 TensorFlow
生成完美口型同步的 AI 数字人视频
在当今数字媒体和人工智能技术的推动下,生成完美口型同步的AI数字人视频成为备受关注的研究领域。本研究旨在开发一种技术,能够实现生成完美口型同步的AI数字人视频,使虚拟人物的口型与语音内容完美匹配。采用了深度学习方法,结合了语音识别、面部运动生成和视频合成技术,以实现这一目标。通过语音识别模型将输入的文本转换为音频波形,利用面部运动生成模型根据音频波形生成对应的面部动作序列,这些动作序列可以准确地反映出发音的口型和面部表情,最后生成口型同步的AI数字人视频。这项技术具有广泛的应用前景,可用于虚拟主持人、教育视频、学习平台等领域,提升视频内容的真实感和沟通效果。
22 0
|
4天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
2402 1
|
4天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
4天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
20 0
|
4天前
|
机器学习/深度学习 敏捷开发 人工智能
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
吴恩达 x Open AI ChatGPT ——如何写出好的提示词视频核心笔记
29 0
|
4天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
31 1
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口

热门文章

最新文章

http://www.vxiaotou.com