魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(中)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战

二、 ModelScope社区视觉模型概览

 

image.png

 

除此之外,阿里巴巴通过“模型+服务”或者“模型+数据”的方式,完成了模型形态的能力开放。主要分为视觉感知类、视觉理解类、视觉生产类。ModelScope社区兼容国际主流的开源框架,坚持学术研究与产业应用的双轮驱动。

 

image.png

 

接下来,介绍一些在ModelScope社区开源的视觉模型。如上图所示,视觉理解,开放能力主要分为图像分类,目标检测,图像分别三个环节。

 

image.png

 

其中,图像分类模型主要有VIT图像分类,动物识别,万物识别等等;目标检测模型主要有通用实时检测模型,VitDet图像目标检测,StreamYOLO实时视频目标检测等等。

 

image.png

 

在图像分割模型方面,主要有CascadeMaskRCNN-SwinB图像实例分割,BSHM人像抠图,Mask2Former-SwinL全景分割等等。

 

image.png

 

如上图所示,达摩院开放的生物识别能力主要包含三个模型,即生物识别系统Pipeline、RetinaFace检测关键点模型、CurricularFace识别模型。

 

其中,生物识别系统Pipeline包含三个模块:人脸检测,人脸关键点和人脸识别模型。目前可体验MogFace人脸检测,Mtcnn人脸检测关键点模型,1M人脸检测模型ULFD,RetinaFace人脸检测关键点模型,CurricularFace人脸识别模型和人脸表情识别模型FER。

 

RetinaFace检测关键点模型的优势在于,人脸检测关键点二合一模型;单阶段&e2e使用MobileNet Backbone可以在端上实时inference。

 

CurricularFace识别模型的优势在于,它提出一种自适应的课程学习损失函数,解决了基于间隔和难样本挖掘损失函数的固有缺陷问题。

 

image.png

 

如上图所示,ModelScope社区在生物智能方面开放了经典的MogFace检测模型、1M检测模型ULFD、MTCNN检测模型、以及FRE表情识别模型。

 

其中,MogFace检测模型的优势在于,提出一种解决误检的方法,解决了人脸检测实际应用时面对的挑战。MogFace检测模型是Wider Face榜单上的六项冠军模型,并已持续一年以上。

 

1M检测模型ULFD的优势在于,无特殊算子,支持onnx导出,便于移植推理。在FP32精度下,模型大小为1.1MB,推理框架int8量化后大小为300KB左右。

 

FRE表情识别模型的优势在于,backbone是VGG19后面接一个fc层,在性能和速度实现了较好的trade-off。目前,Fer为人脸表情识别领域的明星项目,网络结构比较简单。

 

image.png

 

除此之外,阿里云达摩院在ModelScope社区开放了视频增强相关能力。让用户在视频制作、播出等场景中提供全面的画质提升能力,让AI画质管理品类成为视频业务的基础设施。

 

如上图所示,视频增强能力主要有四个方面,即色彩增强、画质评估、时域增强、清晰度。

 

image.png

 

如上图所示,在ModelScope社区,以人像增强模型为例。它可以实现图像的超分辨率、人像增强、图像降噪、图像上色、图像颜色增强等等。

 

image.png

 

在视觉编辑能力方面,达摩院在ModelScope社区开放了风格迁移、人像动漫化、人像美肤等能力。

 

其中,风格迁移可以将给定图像和参考图像作为输入,风格迁移模型会自动地将图像变为参考图的风格。人像动漫化可以实现,端到端全图卡通化转换,生成二次元虚拟形象。人像美肤主要对图像中的人体皮肤进行处理,实现匀肤(处理痘印、肤色不均等)、去瑕疵(脂肪粒、斑点、痣等)以及美白等功能。

 

image.png

 


相关文章
|
22小时前
|
人工智能 监控 安全
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
2天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
24 1
|
5天前
|
人工智能 自然语言处理 算法
分享几个.NET开源的AI和LLM相关项目框架
分享几个.NET开源的AI和LLM相关项目框架
|
8天前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
29 3
|
10天前
|
人工智能 前端开发 算法
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
|
12天前
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
26 2
|
机器学习/深度学习 人工智能 自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
|
机器学习/深度学习 人工智能 自然语言处理
与世界同行 2017中国人工智能大会有感
与世界同行 2017中国人工智能大会有感
1660 0
与世界同行 2017中国人工智能大会有感

热门文章

最新文章

http://www.vxiaotou.com