超越Sora极限，120秒超长AI视频模型诞生！-阿里云开发者社区

超越Sora极限，120秒超长AI视频模型诞生！

2024-05-01 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限，实现120秒超长连贯视频，超越Sora等传统模型。采用自回归方法，结合短期记忆的条件注意模块和长期记忆的外观保持模块，保证内容连贯性和动态性。在实际应用中，展示出优秀的动态性、连贯性和图像质量，但仍有优化空间，如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

随着人工智能技术的飞速发展，AI视频生成领域迎来了一次重大突破。最近，一项名为StreamingT2V的新技术引起了广泛关注，它成功地将文本描述转化为长达120秒的连贯视频内容，这一成就不仅超越了以往的技术限制，更为未来的多媒体创作和内容生产打开了新的可能性。

传统的文本到视频的转换模型，如Sora等，虽然能够根据文本指令生成高质量的短视频，但往往受限于视频长度和动态复杂性。这些模型在尝试生成更长视频时，常常出现场景转换不自然、画面停滞等问题。而StreamingT2V的出现，正是为了解决这些长期困扰研究者的问题。

StreamingT2V的核心在于其自回归的方法论，它通过短期记忆模块——条件注意模块（CAM）和长期记忆模块——外观保持模块（APM），以及一种随机混合方法，确保了视频内容的连贯性和动态性。CAM通过注意力机制，利用前一视频块的特征信息，生成新的内容，而APM则从初始帧提取高层次的场景和对象特征，确保在视频生成过程中保持对象和场景的一致性。此外，随机混合方法的应用，使得视频增强过程在自回归过程中不会出现时间上的不一致性。

在实际测试中，StreamingT2V展现了其卓越的性能。它不仅能够生成具有丰富动态和高帧级图像质量的长视频，而且在与现有技术的比较中，无论是在视频的连贯性、文本对齐还是每帧质量上，都显示出明显的优势。尤其是在动态性方面，StreamingT2V能够生成高运动量的视频，而其他方法则容易出现视频停滞。

然而，尽管StreamingT2V取得了显著的成果，但仍有一些挑战和局限性需要克服。例如，尽管APM模块在保持场景和对象特征方面表现出色，但在处理更复杂的场景和对象变化时，可能仍需要进一步的优化。此外，随机混合方法虽然有效，但在处理连续性要求更高的视频内容时，可能需要更精细的调整。

论文地址：https://arxiv.org/abs/2403.14773

超越Sora极限，120秒超长AI视频模型诞生！

热门文章

最新文章

相关课程

相关电子书

相关实验场景