覆盖200+服务场景,阿里「通义」大模型系列打造国内首个AI统一底座(2)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 覆盖200+服务场景,阿里「通义」大模型系列打造国内首个AI统一底座

借鉴人脑的模块化设计

目前业界普遍认为,人脑本身由不同的模块组成,大脑中拥有储备各种知识和处理不同模态信息的能力模块,人类思考时只调用与特定任务相关的模块,正这种机制保证了人脑的高速运行。通义统一底座的另一组成部分「模块化设计」正是借鉴了这种运行机制。

具体而言,模块化大一统模型采用模块化 Transformer Encoder-Decoder 结构来统一多模态的理解和生成,同时切分出不同的独立模块,包括基础层、通用层(如不同模态)、任务层到功能性模块(如推理),每个模块间相互解耦,各司其职。

达摩院团队为何会探索这种模块化设计思路呢?现在大规模预训练的 Transformer-based 模型虽然能够很好地解决感知智能相关任务,但缺乏精心设计的纯 Transformer 模型基本无法完成对于实现认知智能的尝试。借鉴人脑的模块化设计成为一种可能通向成功的思路。

在单一 NLP 模块中,最底层为数据表示层,中间层为 Transformer 基础语义表示模块,最上层则是对整个下游划分为不同的任务模块;而对于多模态的模块化,其模态模块涵盖语言、视觉、音频和视频——底部输入层接收各自模态信息,中间层通过跨模态信息融合学习统一语义表示,往上再划分为针对不同模态的具体下游任务。

针对不同类型的下游任务,模块化模型可灵活拆拔不同模块进行微调或者进行继续预训练。通过这种方式,大模型能够实现轻量化,并取得较好的微调效果,单模态、多模态任务水平均能得到提升。

基于统一底座打造层次化模型系列

大模型最终是要实现落地,满足各行各业的应用需求。因此,阿里达摩院基于其 AI 统一底座构建了通用模型与专业模型协同的层次化人工智能体系

下图为通义大模型整体架构,最底层为统一模型底座,中间基于底座的通用模型层覆盖了通义 - M6、通义 - AliceMind 和通义 - 视觉,专业模型层深入电商、医疗、娱乐、设计、金融等行业。

通义 - M6 已经从 2020 年 6 月的 3 亿参数基础模型发展到 2021 年 10 月的 10 万亿参数全球最大预训练模型到 2022 年 1 月的业界首个通用统一大模型 M6-OFA。

通义 - AliceMind 是阿里达摩院开源的深度语言模型体系,包含了通用语言模型 StructBERT、生成式 PALM、结构化 StructuralLM、超大中文 PLUG 、多模态 StructVBERT、多语言 VECO、对话 SPACE 1.0/2.0/3.0 和表格 STAR 1.0/2.0,过程中形成了从文本 PLUG 到多模态 mPLUG 再到模块化统一模型演化趋势。

近日,基于 AliceMind/StructBERT 模型结果在中文语言理解测评基础 CLUE 上获得了三榜第一,分别是分类榜单、机器阅读理解榜单和总榜单。

通义 - 视觉大模型自下往上分为了底层统一算法架构、中层通用算法和上层产业应用。据了解,通用 - 视觉大模型可以在电商行业实现图像搜索和万物识别等场景应用,并在文生图以及交通和自动驾驶领域发挥作用。

阿里始终秉持开源开放的理念。此次通义大模型系列中语言大模型 AliceMind-PLUG、多模态理解与生成统一模型 AliceMind-mPLUG、多模态统一底座模型 M6-OFA、超大模型落地关键技术 S4 框架等核心模型及能力已面向全球开发者开源,最新文生图大模型近期将开放体验。其中, 270 亿参数版 AliceMind-PLUG 是目前规模最大的开源语言大模型。

开源链接:


协同并不容易做到

通过通用与专业领域大小模型的协同,阿里达摩院让通义大模型系列兼顾了效果最优化与低成本落地。然而实现这一切并不容易。

回到通义的设计思路,即通过一个统一的底座模型同时做单模态和跨模态任务,在多模态任务上取得 SOTA 效果的同时也能处理单模态任务。不过,既然希望模型更通用以覆盖更多模态及下游任务,则需要高效地将统一底座下沉到具体场景中的专用模型。这正是模型底座、通用模型与下游专业模型协同的关键。

受算力资源限制,大模型行业落地不易。近一两年,业界也提出了一些落地思路,即先打造一个基础大模型,再继续训练得到领域模型,最后通过微调构建具体行业任务模型。通义也要走通这样的路,不过希望通过新的大模型架构设计将这一过程做到更快和更高效

可以这么说,无论是 seq2seq 统一学习范式还是模块化设计思路,阿里达摩院都希望对整个模型架构和统一底座有更深的理解。尤其是模块化思路,通过细分为很多个模块并知道它们能做什么,则真正可以在下游得到很高效且通用性很好的行业应用小模型。

目前,通过部署超大模型的轻量化及专业模型版本,通义大模型已在超过 200 个场景中提供服务,实现了 2%~10% 的应用效果提升

比如,通义大模型在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索、在 AI 辅助审判中司法卷宗的事件抽取、文书分类等场景任务中实现 3~5% 的应用效果提升、在开放域人机对话领域通过建立初步具备「知识、情感以及个性、记忆」的中文开放域对话大模型实现了主动对话、广泛话题、紧跟热点等对话体验。

此外,通义大模型在 AI 辅助设计、医疗文本理解等其他领域也有丰富的应用场景。我们来看一组通义大模型在文生图领域的效果展示。比如文艺复兴时期皇家花栗鼠肖像画:

中国风 - 山中建筑:

以及中国风学习中的小猫:

周靖人表示,对达摩院来说一直以来重点都不是把模型的规模做大,而是通过一系列的前沿研究和实践沉淀更通用更易用的大模型底层技术。现阶段,阿里达摩院希望将底座做得更实,将更多模态和任务考虑到统一模型范畴内,通过减少 AI 模型在实际场景落地中的定制化成本,真正体现出大模型的效果。

与此同时,在打造大模型统一底座的基础上,阿里希望通过开源开放,与外界用户和合作方自己共创下游应用。

参考链接:https://blog.csdn.net/AlibabaTech1024/article/details/125215198

相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
3天前
|
人工智能 Serverless 异构计算
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
"飞天技术沙龙——Serverless 技术实践营"将于2024年5月31日举行,聚焦Serverless在AI中的应用。活动包括演讲、实操,探讨Serverless演进趋势、AI应用开发及降低成本等议题。限额80人,报名审核制,现场还有大奖和证书待您领取。扫描链接<https://summit.aliyun.com/Serverless2024shanghai>报名。
上海站丨飞天技术沙龙 Serverless + AI 专场开启报名!
|
5天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
2541 1
|
5天前
|
人工智能 自然语言处理 搜索推荐
阿里通义千问的这次升级不仅带来了实实在在的利好,也为我们展示了AI技术的巨大潜力和广阔前景
【5月更文挑战第13天】阿里通义千问3月22日升级,开放1000万字长文档处理功能,成为全球处理容量最大的AI应用,超越ChatGPT等。此升级助力用户(如金融分析师、法律人士、科研人员)高效处理文档,提升工作效率,并推动AI在各行业深入应用,加速数字化转型。未来,通义千问可能发展更强大的自然语言处理能力、拓宽应用场景及提供智能个性化推荐,展现AI技术潜力与前景。
25 2
|
5天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
5天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
20 0
|
5天前
|
消息中间件 人工智能 监控
|
5天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
31 1
http://www.vxiaotou.com