覆盖200+服务场景,阿里「通义」大模型系列打造国内首个AI统一底座(1)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 覆盖200+服务场景,阿里「通义」大模型系列打造国内首个AI统一底座

在大模型领域,阿里持续发力,用技术和思路创新走出一条不一样的路。


时至今日,大模型已经成为整个 AI 产学界追逐的技术「宠儿」,炼大模型如火如荼,各式各样参数不一、任务导向不同的大模型层出不穷。大模型具备效果好、泛化能力强等特点,进一步增强了 AI 的通用性,成为 AI 技术和应用的新基座。

具体到 NLP、CV 领域,基于文本、图像、语音和视频等单一模态的大模型在各自下游任务上不断取得 SOTA 结果,有时甚至超越人类表现。单模态单任务似乎走到了极致。同时现实世界中的这些模态并不总是独立存在,更多地是以跨模态的形式出现。

基于这些,预训练大模型逐渐朝着大一统方向发展,希望单个模型能够同时处理文本、图像、音频、视频等多模态任务,即使现有模型无法做到也要留出能力空间。

目前,业界已经出现一些能够处理多模态任务的通用模型,比如 DeepMind 的通用图文模型 Flamingo 和通才智能体 Gato,MSRA 的 BEiT-3 等。这些都展现出了大模型突破单一模态和单一任务的巨大潜力,但在实现全模态全任务的通用性上依然面临技术难点。大模型的训练与落地应用也受到算力限制。

在国内,阿里达摩院一直以来深耕多模态预训练,并率先探索通用统一大模型。去年,阿里达摩院先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。其中使用 512 卡 V100 GPU 实现全球最大规模 10 万亿参数多模态大模型 M6,同等参数规模能耗仅为此前业界标杆的 1%,极大降低大模型训练门槛。

阿里探索大模型通用性及易用性的努力并没有止步于此。9 月 2 日,在阿里达摩院主办的世界人工智能大会「大规模预训练模型」主题论坛上,阿里巴巴资深副总裁、达摩院副院长周靖人发布阿里巴巴最新「通义」大模型系列,其打造了国内首个 AI 统一底座,并构建了通用与专业模型协同的层次化人工智能体系,将为 AI 从感知智能迈向知识驱动的认知智能提供先进基础设施。



为了实现大模型的融会贯通,阿里达摩院在国内率先构建 AI 统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。通过这种统一学习范式,通义统一底座中的单一 M6-OFA 模型,在不引入任何新增结构的情况下,可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等 10 余项单模态和跨模态任务,并达到国际领先水平。这一突破最大程度打通了 AI 的感官,受到学界和工业界广泛关注。近期 M6-OFA 完成升级后可处理超过 30 种跨模态任务。

通义统一底座中的另一组成部分是模块化设计,它借鉴了人脑模块化设计,以场景为导向灵活拆拔功能模块,实现高效率和高性能。

周靖人表示,「大模型模仿了人类构建认知的过程,通过融合 AI 在语言、语音、视觉等不同模态和领域的知识体系,我们期望多模态大模型能成为下一代人工智能算法的基石,让 AI 从只能使用‘单一感官’到‘五官全开’,且能调用储备丰富知识的大脑来理解世界和思考,最终实现接近人类水平的认知智能。」

阿里达摩院构建 AI 统一底座

M6-OFA 模型实现架构、模态和任务统一

通义统一底座中统一学习范式的实现背后离不开阿里达摩院的多模态统一底座模型 M6-OFA,相关研究被 ICML 2022 接收,代码、模型和交互式服务也已开源。


先来看架构统一。M6-OFA 整体采用了经典的 Transformer Encoder-Decoder,外加一个 ResNet Blocks。通过这种架构完成所有任务,让预训练和微调采用相同的学习模式,无需增加任何任务特定的模型层。

如下图所示,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 采用自回归方式输出结果。

对于模态统一,M6-OFA 构建了一个涵盖不同模态的通用词表,以便模型使用该词表表示不同任务的输出结果。其中 BPE 编码的自然语言 token 用于表示文本类任务或图文类任务的数据;图片中连续的横纵坐标编码为离散化 token,用于表示视觉定位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表示图片生成、图片补全等任务的数据。

最后是任务统一,通过设计不同的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和 CV)的所有任务都统一建模成序列到序列(seq2seq)任务。M6-OFA 覆盖了 5 项多模态任务,分别为视觉定位、定位字幕、图文匹配、图像字幕和视觉问答(VQA);2 项视觉任务,分别为检测和图像填补;1 项文本任务,即文本填补。

今年 2 月,M6-OFA 统一多模态模型在一系列视觉语言任务中实现了 SOTA 性能,在 Image Caption 任务取得最优表现,长期在 MSCOCO 榜单排名第一;在视觉定位任务中的 RefCOCO、RefCOCO + 和 RefCOCOg 三个数据集均取得最优表现,以及在视觉推理任务的数据集 SNLI-VE 上取得第一。OFA 的 VQA 分数达到 82.0,效果名列前茅。文本生成图像(text2Image)在 COCO 数据集上超越了此前基线模型,当时的 Case 对比也优于 GLIDE 和 CogView。并且,OFA 模型展现出一定的零样本学习新任务的能力。

下图展示了 M6-OFA 的 text2Image 和 VQA 任务的跨模态生成结果。

在更大规模的文生图的数据进行微调后,模型也取得了通用领域文生图任务的优异表现,尤其擅长艺术创作,如下图所示:


相关文章
|
1天前
|
机器学习/深度学习 人工智能 安全
Gandalf AI 通关详解(大模型安全)
Gandalf AI 通关详解(大模型安全)
|
3天前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
25 0
|
4天前
|
数据采集 SQL 人工智能
AI+低代码,打通企业大模型应用最后一公里!
在2024微软Build大会上,微软宣布50多项AI更新,包括GPT-4上云、Cobalt芯片、Team Copilot和小模型等。Team Copilot成为团队助手,管理会议并协助解决问题。GPT-4模型支持多模态处理,引领AI体验新标准。微软构建三个平台增强AI功能,推动AI应用于协同办公、低代码开发等领域。织信低代码平台结合AI技术,实现智能数据补充、内容分析和快速算法,提升企业效率,降低了对IT资源的需求。AI与低代码技术共同促进数字化转型,织信低代码已在多个行业广泛应用,其AI助手强化了用户体验和效率。未来,AI将成为软件交互的核心,低代码与AI的结合将进一步推动软件平民化。
|
5天前
|
机器学习/深度学习 存储 人工智能
构建高效AI系统:深度学习模型压缩技术
【5月更文挑战第26天】 在资源受限的应用场景中,深度学习模型往往面临存储空间和计算能力的双重挑战。本文针对这一问题,深入探讨了深度学习模型压缩技术,旨在通过降低模型复杂度来优化其性能。文中首先分析了模型压缩的必要性,随后详细介绍了知识蒸馏、网络剪枝、量化等主流压缩方法,并通过实验验证了所提技术的有效性。最后,文章展望了模型压缩领域的未来发展方向,为相关研究提供了新的视角和思路。
|
5天前
|
机器学习/深度学习 数据采集 人工智能
构建高效AI模型:深度学习优化策略和实践
【5月更文挑战第26天】 在人工智能的浪潮中,深度学习作为一项核心技术,其模型构建与优化一直是研究的热点。本文旨在探讨如何通过一系列创新性的优化策略提升深度学习模型的性能及效率。我们将从理论与实践两个维度出发,详细阐述包括数据预处理、网络结构设计、损失函数选择、正则化技巧以及超参数调整等方面的优化措施。通过这些策略的综合运用,可以显著提高模型的准确性,降低过拟合风险,并缩短训练时间,为AI领域的研究者和工程师提供有价值的参考。
|
7天前
|
人工智能 图形学
阿里AI模型EMO免费上线通义APP
阿里AI模型EMO免费上线通义APP
33 1
|
10天前
|
机器学习/深度学习 人工智能 编解码
Sora - 探索AI视频模型的无限可能
Sora - 探索AI视频模型的无限可能
33 0
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
ai大模型
【5月更文挑战第20天】ai大模型
27 0
|
14天前
|
人工智能 Serverless 异构计算
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
"飞天技术沙龙——Serverless 技术实践营"将于2024年5月31日举行,聚焦Serverless在AI中的应用。活动包括演讲、实操,探讨Serverless演进趋势、AI应用开发及降低成本等议题。限额80人,报名审核制,现场还有大奖和证书待您领取。扫描链接<https://summit.aliyun.com/Serverless2024shanghai>报名。
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
|
17天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
2599 1
http://www.vxiaotou.com