一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖

简介: 一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖


目录

一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖


一种架构来完成所有任务—Transformer架构正在以一己之力统一AI江湖

语言模型,图像、视频方面这一年都被Transformer架构同时刷新了模型规模和性能基准。这里还是要说到Transformer的各类变体在这一年中大放异彩,同时在NLP和CV领域频频刷榜。

近些年,transformer架构逐渐将其影响范围扩展到各种新领域。最初,Transformers是为自然语言处理而开发的,现在正在成为深度学习的瑞士军刀。 2021 年,它们被用来发现药物、识别语音和绘画等任务上。

transformers已经证明擅长视觉任务、预测地震以及分类和生成蛋白质。在过去的一年里,研究人员将它们推向了广阔的新领域。

TransGAN:TransGAN 是一个生成对抗网络,它结合了transformer以确保每个生成的像素与其之前生成的像素一致。这项工作在测量生成的图像与训练数据的相似程度方面取得了最先进的结果。

TimeSformer:Facebook 的 TimeSformer 使用该架构来识别视频剪辑中的动作。它解释视频帧的序列,而不是文本中通常的单词序列。它的性能优于卷积神经网络,可以在更短的时间内分析更长的剪辑片段,并使用更少的功率。

GPT-2:Facebook、Google和加州大学伯克利分校的研究人员在文本上训练了 GPT-2,然后冻结了它的自注意力和前馈层。他们能够针对各种领域进行微调,包括数学、逻辑问题和计算机视觉。

AlphaFold 2:DeepMind 发布了 AlphaFold 2 的开源版本,它使用transformer根据氨基酸序列找到蛋白质的 3D 形状。该模型激发了医学界的兴趣,因为它具有推动药物发现和揭示生物学见解的潜力。

Vision Transformer(ViT)以及Video ViT

Transformer 于 2017 年首次亮相,并迅速改变了语言建模。它的自注意力机制跟踪序列中的每个元素与其他每个元素的关系,不仅适合分析单词序列,还适合分析像素、视频帧、氨基酸、地震波等序列。基于transformer的大型语言模型已成为新兴基础模型品种的示例——在大型未标记语料库上预训练的模型,可以针对有限数量的标记示例对专门任务进行微调。transformer在各种领域都能很好地工作的事实,可能预示着超越语言的基于transformer的基础模型。

  深度学习的历史已经见证了一些迅速普及的想法:ReLU 激活函数、Adam 优化器、注意力机制和现在的transformer。过去一年的发展表明,这种架构仍在发挥作用。

参考文章https://read.deeplearning.ai/the-batch/issue-123/


相关文章
|
5天前
|
人工智能 自然语言处理 数据库
AI - RAG架构
AI-RAG架构
58 0
|
5天前
|
机器学习/深度学习 自然语言处理 并行计算
大模型开发:什么是Transformer架构及其重要性?
Transformer模型革新了NLP,以其高效的并行计算和自注意力机制解决了长距离依赖问题。从机器翻译到各种NLP任务,Transformer展现出卓越性能,其编码器-解码器结构结合自注意力层和前馈网络,实现高效训练。此架构已成为领域内重要里程碑。
48 2
|
5天前
|
机器学习/深度学习 XML 自然语言处理
Transformer 架构—Encoder-Decoder
Transformer 架构—Encoder-Decoder
105 1
|
5天前
|
机器学习/深度学习 人工智能 架构师
【架构师】AI时代架构师必备技能
【架构师】AI时代架构师必备技能
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
25 4
|
5天前
|
机器学习/深度学习 自然语言处理 并行计算
一文搞懂Transformer架构的三种注意力机制
一文搞懂Transformer架构的三种注意力机制
38 1
|
5天前
|
机器学习/深度学习 自然语言处理
【大模型】在大语言模型的架构中,Transformer有何作用?
【5月更文挑战第5天】【大模型】在大语言模型的架构中,Transformer有何作用?
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
【4月更文挑战第28天】清华大学研究团队提出了Megalodon,一种针对长序列数据优化的Transformer模型。为解决Transformer的计算复杂度和上下文限制,Megalodon采用了CEMA改进注意力机制,降低计算量和内存需求;引入时间步长归一化层增强稳定性;使用归一化注意力机制提升注意力分配;并借助预归一化与双跳残差配置加速模型收敛。在与Llama 2的对比实验中,Megalodon在70亿参数和2万亿训练token规模下展现出更优性能。论文链接:https://arxiv.org/abs/2404.08801
29 2
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
清华首款AI光芯片登上Science,全球首创架构迈向AGI
【4月更文挑战第16天】清华大学研究团队开发出大规模光子芯片“太极”,在《科学》杂志发表,该芯片基于创新的光子计算架构,实现百万神经元级别的ONN,能效比高达160 TOPS/W。实验中,太极芯片成功执行1000类别分类任务,提升AI内容生成质量,为AGI发展开辟新路径。然而,光子集成电路的制造成本高、技术成熟度不足及软件支持限制了其广泛应用。
27 5
清华首款AI光芯片登上Science,全球首创架构迈向AGI
|
5天前
|
机器学习/深度学习 编解码 人工智能
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
58 1
Transformer 和扩散模型的生成式 AI 实用指南(预览版)

热门文章

最新文章

http://www.vxiaotou.com