Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频

2024-04-16 41

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： [Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集，包含12K个高分辨率视频和400k+片段，以视频脚本形式进行密集注释，每个场景平均有145个单词的标题。除了视觉信息，还转录了画外音，提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务：Vript-CAP（详细视频描述）、Vript-RR（视频推理）和Vript-ERO（事件时序推理），旨在推动视频理解的发展。

2000元阿里云代金券免费领取，2核4G云服务器仅664元/3年，新老用户都有优惠，立即抢购>>>

阿里云采购季（云主机223元/3年）活动入口：请点击进入>>>，

阿里云学生服务器（9.5元/月）购买入口：请点击进入>>>，

? Vript: Refine Video Captioning into Video Scripting

将传统视频标注细化为视频脚本标注

Github地址： mutonix/Vript (github.com)

Vript是一个带有12K个注释的高分辨率视频(超过400k片段)的细粒度视频文本数据集。该数据集的注释受到视频脚本的启发。如果我们想做一个视频，我们必须首先写一个脚本来组织如何拍摄视频中的场景。为了拍摄一个场景，我们需要决定内容，拍摄类型(中景，特写等)，以及相机如何移动(平移，倾斜等)。因此，受到视频脚本格式的启发，我们以视频脚本的方式对视频进行注释。与之前的视频文本数据集不同，我们在不丢弃任何场景的情况下对整个视频来进行密集注释，每个场景都有一个约145个单词的标题。除了视觉模态，我们还将画外音转录成文字，并与视频标题放在一起，为视频注释提供更多的背景信息。

此外，我们提出了Vript-Bench，这个新的benchmark包括三个具有挑战性的视频理解任务：

Vript-CAP (Caption): 一个测试模型描述视频能力的benchmark。相比之前的benchmark，如MSR-VTT 以及Panda-70M ，它们的标注都比较短，一般只有一到两句话，对于目前的视频多模态模型来说，已经过于简单。Vript-CAP数据集测试模型输出详细描述的能力。
Vript-RR(Retrieve then Reason): 一个新的视频推理benchmark。相比直接短视频片段的QA，Vript-RR基于长视频，首先给出视频中的场景的详细描述作为提示，然后就场景中的细节提出问题。
Vript-ERO(Event Re-ordering): 一个新的视频时序推理benchmark。Vript-ERO通过提供位于同一视频的两个/四个不同视频时间点的场景描述，并要求模型给出正确的场景时间顺序。

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频

? Vript: Refine Video Captioning into Video Scripting

将传统视频标注细化为视频脚本标注

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注 ｜ 多模态大模型，文生视频

? Vript: Refine Video Captioning into Video Scripting

将传统视频标注细化为视频脚本标注

多模态

热门文章

最新文章

相关课程

相关电子书

相关实验场景

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频