顶会速递 | CVPR 2024 魔搭社区模型/创空间盘点(一)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点

2月27日,CVPR2024 论文录用放榜

魔搭社区整理了 CVPR 2024中稿论文中在社区上可下载的开源模型、体验Demo的一些工作,给大家带来第一波盘点:


DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors


本文介绍了一种名为DiffusionGAN3D的新框架,用于文本引导下的三维域适应和生成任务。该框架结合了三维GAN模型和扩散先验,能够提供稳定、高质量的人像生成,并且具有灵活高效的文本引导功能。此外,为了增强领域适应和人像生成的能力,作者还引入了一些损失函数和可学习的三角平面等技术手段。实验结果表明,该框架在领域适应和人像生成任务中均取得了优秀的表现,优于现有方法。




En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D Synthetic Data

现有生产中3D人物资产的制作过程繁琐复杂、技术门槛高,存在着效率低下、成本高昂的问题。在这项工作中,我们提出了一个零样本建模的预训练通用3D人物生成框架En3D,其训练无需依赖任何3D或2D数据集,能够快速生成高质量、内容多样的3D人体模型;同时支持角色绑定驱动、文本描述生成及图像引导生成等,输出资产兼容现有CG渲染管线。实现表明其生成结果在质量、精度、内容多样性上均显著优于现在方法。


FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

本文介绍了一种新的方法——“听觉想象”,通过输入音频生成多样化的高质量动态人脸动画。该方法主要解决两个关键问题:如何准确地分离出身份、内容和情感等信息,并保持视频内部多样性与外部一致性。为了解决这些问题,作者设计了渐进式音频解耦模型和可控连贯帧生成器。实验结果表明,该方法在处理这种新范式时具有灵活性和有效性。


另外,围绕FaceChain开源项目还有另一篇论文工作也被收录

FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-shot Subject-Driven Generation

(目前该Paper暂未public)



Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation


扩散模型在图像生成领域表现出色,但在真实多样视频生成上仍面临挑战,主要是由于空间与时间维度的交织增加了T2V任务难度。本研究提出HiGen方法,通过结构与内容双层面解耦空间与时间要素以提升性能。结构层面中,设计统一去噪器将任务拆分为空间推理(利用文本构建空间一致性)和时间推理(生成连贯运动)两个步骤。内容层面,从输入视频中提取运动变化及外观变化线索,指导模型训练以灵活生成内容并增强时序稳定性。HiGen通过解耦降低了复杂性,有效生成语义精确、动态稳定的高质量视频,并在对比实验中超越了最先进T2V技术。



mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration


本文介绍了一种名为mPLUG-Owl2的多模态大型语言模型,该模型能够有效地利用不同模态之间的协作来提高性能。mPLUG-Owl2采用模块化网络设计,并将语言解码器作为管理不同模态的通用接口。具体来说,它引入了共享功能模块以促进模态间的协作,并且还引入了一个适应性模块,可以保留模态特定的特征。实验结果表明,mPLUG-Owl2能够在纯文本和多模态任务中实现统一化,并在单个通用模型中达到最先进的性能水平。值得注意的是,mPLUG-Owl2是第一个展示多模态合作现象的MLLM模型,在纯文本和多模态场景下都具有开创性的意义,为未来多模态基础模型的发展开辟了新的道路。



SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing


图像扩散模型因其广泛的应用在文生图、可控图像生成和图像编辑等任务中备受青睐。然而,虽然最近的研究借助微调方法在特定应用上取得了成效,却常面临训练资源消耗大的问题。本文深入研究了扩散模型U-Net中跳跃连接的作用,并揭示了在编码器和解码器之间聚合远距离信息的分层特征对图像生成的内容和质量有着显著的影响。基于此观察,提出了一个高效的生成微调框架——SCEdit (Skip Connection Editing),该框架整合并编辑跳跃连接,并使用了名为SC-Tuner的轻量级微调模块。此外,所提出的框架允许通过可控的SC-Tuner注入不同的条件,直接扩展到可控图像生成任务上,简化并统一了多条件输入的网络设计。由于采用了轻量级微调器同时反向传播仅经过解码器,SCEdit大幅度降低了训练参数量、内存消耗和计算开销。在文生图和可控图像生成任务上进行的广泛实验证明了我们方法在效率和性能方面的优越性。




后续将持续推出社区上顶会论文相关的开源工作

敬请关注


相关文章
|
16天前
|
机器学习/深度学习 人工智能 算法
【AAAI 2024】再创佳绩!阿里云人工智能平台PAI多篇论文入选
阿里云人工智能平台PAI发表的多篇论文在AAAI-2024上正式亮相发表。AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。论文成果是阿里云与浙江大学、华南理工大学联合培养项目等共同研发,深耕以通用人工智能(AGI)为目标的一系列基础科学与工程问题,包括多模态理解模型、小样本类增量学习、深度表格学习和文档版面此次入选意味着阿里云人工智能平台PAI自研的深度学习算法达到了全球业界先进水平,获得了国际学者的认可,展现了阿里云人工智能技术创新在国际上的竞争力。
|
8月前
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
10月前
|
算法 数据可视化 自动驾驶
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
国内首次!山东大学全新点云法向估计算法荣获SIGGRAPH最佳论文奖
125 0
|
12月前
|
存储 Cloud Native 容灾
再创佳绩!阿里云4篇论文入选顶会FAST 2023
再创佳绩!阿里云4篇论文入选顶会FAST 2023
327 0
|
12月前
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
225 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
187 0
|
机器学习/深度学习 人工智能 自然语言处理
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
深度生成模型可以在高分辨率下进行逼真的图像合成。但对于许多应用来说,这还不够:内容创作还需要可控。虽然最近有几项工作研究了如何分解数据中的潜在变化因素,但它们大多在二维中操作,忽略了我们的世界是三维的。
CVPR 2021大奖公布!何恺明获最佳论文提名,代码已开源!
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩 阿里云6篇论文入选全球网络顶会SIGCOMM2022
8月29日消息,国际权威网络顶会SIGCOMM2022近日在荷兰举行,55篇顶级学术成果出炉,阿里云共计有6篇高质量论文被主会收录,占总数10%以上,创下了国内历届参会企业的最好成绩,同时力压谷歌、微软等巨头,成为本届入选论文最多的科技公司。入选的论文包括阿里云自研的下一代高性能RDMA网络协议Solar、端网融合可预期数据中心网络架构、可编程网络稳定性保障系统等。
238 0
|
弹性计算 人工智能 运维
阿里云与达摩院合作 AHPA 弹性预测论文被顶会 ICDE 录用
近日,阿里云容器服务团队与达摩院数据决策团队合作的论文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被数据管理与数据库国际顶级会议 ICDE 2022 长文录用。
|
机器学习/深度学习 存储 人工智能
阿里云机器学习平台PAI论文入选国际顶会ASPLOS 2022
近日,阿里云机器学习PAI主导的论文《机器学习访存密集计算编译优化框架AStitch》入选国际顶会ASPLOS 2022,论文通过编译优化的手段来自动化地提高机器学习任务的执行效率。此次入选意味着阿里云机器学习平台PAI自研的深度学习编译优化系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。
http://www.vxiaotou.com