PiSSA :将模型原始权重进行奇异值分解的一种新的微调方法

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。

2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>


阿里云采购季(云主机223元/3年)活动入口:请点击进入>>>,


阿里云学生服务器(9.5元/月)购买入口:请点击进入>>>,

我们开始看4月的新论文了,这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation(PiSSA)方法。

PiSSA和LoRA一样,都是基于这样的前提:对模型参数的改变会形成一个低秩矩阵。

这种方法通过将模型中的矩阵表示为两个可训练矩阵的乘积,辅以一个用于错误校正的残差矩阵,优化了紧凑的参数空间。利用奇异值分解(SVD),PiSSA初始化主奇异值和奇异向量以训练这两个矩阵,同时在微调过程中保持残差矩阵静态。

PiSSA与LoRA的架构相一致,继承了诸如可训练参数减少、轻松部署等好处。但是与LoRA不同,使用PiSSA进行微调的过程与完整模型过程相似,会避免无效的梯度步骤和次优结果。

在LLaMA 2-7B、Mistral-7B-v0.1和Gemma-7B模型的多个任务的比较实验中,PiSSA凭借卓越的表现脱颖而出。以主奇异值和向量初始化的微调适配器产生了更好的结果。

PiSSA展示了加速的收敛速度、与训练数据的稳健对齐,并在类似的可训练参数配置下胜过LoRA。

利用快速SVD技术有助于PiSSA在初始化速度和性能之间取得平衡。

论文中将奇异值分解应用于预训练模型的权重矩阵,以提取主要成分。然后使用这些成分来初始化一个名为PiSSA的适配器。微调PiSSA在开始阶段可以密切复制完整模型微调的效果,同时保持良好的参数效率。通过大量实验,展示了PiSSA的微调性能显著超过了LoRA。

论文地址:

https://avoid.overfit.cn/post/33c2c6c983364b629c1e01479836bacc

目录
相关文章
|
4天前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
99 0
|
4天前
|
机器学习/深度学习 编解码 算法
大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型
大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型
82 0
|
4天前
|
存储 数据可视化 计算机视觉
基于YOLOv8的自定义数据姿势估计
基于YOLOv8的自定义数据姿势估计
|
4天前
|
机器学习/深度学习 算法 PyTorch
实战图像softmax分类模型
本文是学习softmax图像分类模型的总结,主要分享softmax图像分类模型的技术原理,以及用代码实现验证,供大家参考。
95 3
|
存储 算法 PyTorch
pytorch 给定概率分布的张量,如何利用这个概率进行重复\不重复采样?
在 PyTorch 中,可以使用 torch.distributions.Categorical 来基于给定的概率分布进行采样。
672 0
|
机器学习/深度学习 数据采集 自然语言处理
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
189 0
适用于稀疏的嵌入、独热编码数据的损失函数回顾和PyTorch实现
|
机器学习/深度学习 数据挖掘 PyTorch
初始化神经网络权重的方法总结
初始化神经网络权重的方法总结
194 0
初始化神经网络权重的方法总结
|
机器学习/深度学习 算法 测试技术
适合离散值分类的多分类模型——softmax回归
适合离散值分类的多分类模型——softmax回归
适合离散值分类的多分类模型——softmax回归
|
算法 数据挖掘 PyTorch
Yolo系列 | Yolov4v5的模型结构与正负样本匹配
Yolo系列 | Yolov4v5的模型结构与正负样本匹配
783 0
Yolo系列 | Yolov4v5的模型结构与正负样本匹配
|
机器学习/深度学习 算法
DL之DNN优化技术:自定义MultiLayerNetExtend算法(BN层使用/不使用+权重初始值不同)对Mnist数据集训练评估学习过程
DL之DNN优化技术:自定义MultiLayerNetExtend算法(BN层使用/不使用+权重初始值不同)对Mnist数据集训练评估学习过程
DL之DNN优化技术:自定义MultiLayerNetExtend算法(BN层使用/不使用+权重初始值不同)对Mnist数据集训练评估学习过程
http://www.vxiaotou.com