【自然语言处理】【大模型】VeRA：可调参数比LoRA小10倍的低秩微调方法

VeRA：可调参数比LoRA小10倍的低秩微调方法 《VeRA：Vector-based Random Matrix Adaptation》

论文地址：https://arxiv.org/pdf/2310.11454.pdf

相关博客
【自然语言处理】【大模型】VeRA：可调参数比LoRA小10倍的低秩微调方法
【自然语言处理】【大模型】MPT模型结构源码解析(单机版)
【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)
【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)
【自然语言处理】【大模型】极低资源微调大模型方法LoRA以及BLOOM-LORA实现代码
【自然语言处理】【大模型】DeepMind的大模型Gopher
【自然语言处理】【大模型】Chinchilla：训练计算利用率最优的大语言模型
【自然语言处理】【大模型】大语言模型BLOOM推理工具测试
【自然语言处理】【大模型】GLM-130B：一个开源双语预训练语言模型

一、简介

LoRA是降低微调LLM时降低可训练参数的一种方法，但是将其应用在更大的模型仍然面临着挑战。本文提出了了一种基于向量的随机矩阵适配(VeRA，Vector-based Random Matrix Adaptation)。与LoRA相比，其可以将训练参数的数量减少10倍，但保持相同的性能。

二、相关工作

LoRA_22">1. LoRA

LoRA为LLM微调带来的计算挑战提供了一种新颖的解决方案。该方法使用低秩矩阵来近似微调过程中的权重变化，从而有效地减低训练所需的参数量。其还可以使用量化模型权重来进一步降低要求。与基于adapter的微调方法相比，LoRA在部署时不会产生额外的推理时间成本，因此训练矩阵可以和权重合并。

AdaLoRA扩展了LoRA方法，在微调过程中引入了低秩矩阵的动态调整。核心思想是通过基于重要性度量来选择性的修剪矩阵中不太重要的分量，从而优化参数预算的分配。

2. 现有方法的参数效率

虽然LoRA这样的方法在微调性能方法展现出了显著的改善，但是仍然需要大量的可训练参数。基于Aghajanyan等人的研究，内在维度的上限比这种方法中通常使用的秩要小的多。因此，参数量可以进一步减少。虽然AdaLoRA通过动态分配参数，从而进一步减少了可微调参数。但是，我们认为存在另一种可以显著减少可训练参数，且效果不会下降的方法。

3. 随机模型和投影

使用随机矩阵和投影来提高模型效率的概念已经得到了多方面研究的支持。Frankle&Carbin发现随机初始化的神经网络中包含训练时能够达到高性能的子网络。此外，Ramanujan等人了存在的子网络即使没有训练也能够取得令人印象深刻的结果。Aghajanyan等人展示了仅训练少量参数，随机投影会完整空间，能够实现全参数模型效果的90%。其他的一些工作也表明，冻结的随机初始化模型加上小部分的微调，表现出奇的好。

三、方法

在这里插入图片描述

VeRA的核心创新是低秩矩阵的重参数化。具体来说，冻结一对随机初始化的矩阵，这些矩阵在所有适配层之间共享，然后引入可以逐层自适应的可训练缩放向量。如上图1所示，类似于LoRA，训练的缩放向量和低秩矩阵可以合并至原始权重中，从而消除额外的推理延迟。

1. 方法介绍

LoRA 微调两个低秩矩阵的乘积来适应LLM。正式来说，对于预训练权重矩阵 $W_0\in\mathbb{R}^{m\times n}$ ，权重更新矩阵被约束为低秩分解，即
$h=W_0x+\Delta Wx=W_0x+\underline{BA}X\tag{1}$
其中带有下划线的参数通过梯度更新。这种近似可以使得模型保持原始权重 $W_0$ 冻结，同时仅优化低秩矩阵 $A$ 和 $B$ 。它们的尺寸要远比原始矩阵小。 $A$ 的形状是 $m\times r$ ， $B$ 的形状是 $r\times n$ ，而 $r\ll\min(m,n)$ 。相比， $\text{VeRA}$ 为
$h=W_0+\Delta Wx=W_0x+\underline{\Lambda_b}B\underline{\Lambda_d}Ax\tag{2}$
在本方法中， $B$ 和 $A$ 是冻结、随机且跨层共享的，而缩放向量 $b$ 和 $d$ 是可训练的，形式上表达为对角矩阵 $\Lambda_b$ 和 $\Lambda_d$ 。在这种情况下， $B\in\mathbb{R}^{m\times r}$ 和 $A\in\mathbb{R}^{r\times n}$ 不需要是低秩的。这是因为这两个矩阵是静态的，并且不需要存在这些值。相反，由于 $d\in\mathbb{R}^{1\times r}$ ，改变 $r$ 仅会线性增加可训练参数的数量。

2. 参数计数

在这里插入图片描述

使用 $L_{tuned}$ 表示微调层的数量， $d_{model}$ 表示这些层的维度。VeRA的可训练参数数量为
$|\Theta|=L_{tuned}\times(d_{model}+r)\tag{3}$
而LoRA的可微调参数为
$|\Theta|=2\times L_{tuned}\times d_{model}\times r\tag{4}$
具体来说，对于最低的秩( $r = 1$ )，VeRA大约需要LoRA一半的可训练参数。此外，随着秩的增加，VeRA的可训练参数一次仅增加 $L_{tuned}$ ，而LoRA则增加 $2L_{tuned}d_{model}$ 。对于极大的模型，这种参数效率则极为显著，例如GPT-3有96个注意力层且hidden size为12288。