第13集：大模型参数高效微调（PEFT）方法及代码实现

大家好，欢迎来到IT知识分享网。

一、最先进的参数高效微调（PEFT）方法

由于规模庞大，微调大型预训练模型的成本往往极高。参数高效微调（PEFT）方法仅需微调少量（额外）模型参数而非全部参数，即可高效地将大型预训练模型适配到各类下游应用中，显著降低计算与存储成本。当前最先进的PEFT技术所实现的性能已可与完全微调的模型相媲美。

PEFT已与以下组件实现集成：

Transformers：简化模型训练与推理
Diffusers：便捷管理不同适配器
Accelerate：支持超大规模模型的分布式训练与推理

自然语言处理（NLP）领域持续扩张，创新至关重要。因此，可将PEFT（即NLP参数高效迁移学习）视为预训练语言模型的核心驱动力。其本质在于引导现有能力转向新路径，无需从头开始即可提升性能。

PEFT的魅力源于其精密计算架构：通过锁定特定层并聚焦末端层，预训练模型能以最小计算负荷适应新挑战。这类似于可复用火箭技术的工程奇迹——借助既有成果实现更高突破。

此概念并非全新，而是对计算机视觉领域迁移学习技术的借鉴。早期词嵌入研究为当代技术进步奠定了基础。

PEFT正赋能BERT、RoBERTa等语言模型，影响情感分析、实体识别、复杂问答等下游任务。通过合理分配资源并仅修改少量模型参数，有效降低了过拟合风险。

最终，PEFT展现了智能工程的威力与现有资源的巨大潜力，其资源利用方式精准契合技术演进本质。

二、参数高效微调（PEFT）范式
预配置启动——后续定制化方案

LLM预配置阶段主要采用高度超参数化Transformer架构。此类架构作为基础框架，通过双向、自回归及序列到序列等方法，在无监督海量文本上构建自然语言能力。完成此阶段后，下游任务通过集成定制目标对预配置LLM进行精细调整，使其适配专业场景。

显著趋势在于预配置LLM参数量级的必然增长。实证研究持续验证：模型扩容与数据量同步增加几乎总能提升效能。例如拥有1750亿参数的生成式预训练Transformer（GPT-3），可生成卓越的自然语言文本，在适当指令下执行多样化零样本任务并获得可用结果。

此后，Gopher、Megatron-Turing自然语言生成模型（NLG）及Pathways语言模型（PaLM）等大型模型持续证明其在下游应用的适用性。尽管上下文学习（如GPT-3所示）成效显著，但任务特定型微调仍具优势。

然而，通过传统全参数微调方法处理大规模模型日益困难。该方法从预配置权重出发，更新全部参数以创建不同功能的独立实例，对超大模型愈发不切实际。采用PEFT（NLP参数高效迁移学习）技术可缓解此类挑战。但除计算与部署成本外，为不同任务存储独立实例对内存资源要求极高。

三、机器学习中标准微调与参数高效微调的本质区别

在机器学习中，微调与参数高效微调对提升预训练模型在特定任务中的性能至关重要。

微调指在预训练模型基础上，使用新数据针对特定任务继续训练。模型的全部架构（包括所有层和参数）均参与训练。这种方法虽可靠，但对大型复杂模型而言资源消耗大且耗时。

相反，NLP参数高效迁移学习采用更精简的流程：仅选择性地训练预训练模型中的部分参数。通过聚焦与新任务最相关的参数，PEFT优化训练过程。其核心在于识别关键参数并仅更新这些参数，从而显著降低计算需求，实现更高效的模型优化。

指标	参数高效微调 (PEFT)	传统微调
核心目标	在数据/算力受限场景优化预训练模型	在充足数据/算力条件下提升模型
数据需求	少量样本数据	海量样本数据
训练耗时	相对更快	相对更慢
资源消耗	节省计算资源	消耗大量计算资源
参数调整范围	仅修改部分组件	全面更新模型结构
过拟合风险	较低（因修改受限）	较高（因全面修改）
训练结果	达标但通常弱于传统方法	通常优于PEFT
典型应用场景	资源受限/数据稀缺环境	资源充足环境

四、PEFT的好处

1. PEFT实现资源优化
与传统微调不同，PEFT策略性地聚焦于有限子集的模型参数，保持预训练LLM大部分参数不变。此精简流程不仅降低算力需求，更显著减少存储占用。如同精准调校高性能引擎而非全面拆修，在保障质量的同时提升效率。

2. PEFT克服灾难性遗忘
全参数微调中存在”灾难性遗忘”现象——模型适应新任务时可能丢失已习得知识。PEFT通过将更新限制在精选参数中巧妙解决此问题。如同在拥抱创新时保留经验智慧，守护模型核心智能的平衡。

3. PEFT在数据稀疏环境中的优势
值得注意的是，PEFT在低数据场景中展现卓越能力：其性能超越传统全参数微调，并在域外应用中表现出更优泛化性。如同庞大机器学习体系中的敏捷初创单元，灵活适应未知领域。

4. PEFT实现轻量化部署
PEFT的重要成就是生成紧凑的检查点，其体积仅为传统微调检查点的极小部分。如同将尖端技术实验室装入背包，无需复杂硬件或大规模修改即可跨任务灵活部署。

5. PEFT以经济调参匹配性能
PEFT最引人瞩目的特性在于：仅使用极小量可训练参数，即可媲美全参数微调的性能。这印证了在资源受限条件下展现卓越性能的创新智慧，如同通过精准资源分配取得突破性成果的太空探索任务。

五、PEFT：突破传统微调的精准革新

通过模型调整可提升精度与适用性，犹如踏入人工智能与机器学习的复杂领域。PEFT（参数高效微调）正是这种范式变革的体现，它突破了传统微调方法的局限。

1. 精准调整
PEFT实现手术级精度的修改，而非传统微调中偶见的粗放式调整。仅微调相关参数确保底层结构既不过载也无风险，变量经审慎选择达成实用与高效的统一。

2. 智能适配
PEFT系统展现智能适应性：接纳数据复杂性却不偏离核心任务。区别于强制模型匹配所有场景的传统微调，其采用灵活的任务特定优化，使模型在垂直领域发挥卓越性能。

3. 资源高效性
PEFT架构基于计算资源的高效利用。仅变更关键变量即大幅降低算力与时间消耗，这不仅是资源分配优化，更是运行机制的根本性重构。

4. 解锁新可能
PEFT发掘传统微调可能忽略的机遇，通过定制化修改满足任务独特需求。其价值不仅在于效率提升，更在于开启前所未有的技术解决方案与应用场景。

5. 前瞻性策略
PEFT是预见技术世界快速演进的先见性策略，不仅代表正确方向，更为未来建立可扩展、强健且自适应的技术基准，印证对创新与品质的不懈追求。

六、参数高效微调方法实施流程

具体实现方式因预训练模型及场景而异，以下是PEFT方法的通用框架：

初始训练阶段
使用大规模数据集预训练基础模型（如语言建模/图像识别），使模型掌握数据核心特征与关联规律。
定制数据集构建
收集或创建与目标任务匹配的专用数据集，其标注数据需精确反映任务需求。
关键参数识别
评估预训练模型参数对目标任务的适用性。通过梯度技术、敏感性分析或重要性评估等方法，确定微调优先级参数。
参数子集选择
根据参数与任务的相关度筛选子集，可采用重要性阈值法或精选最高价值参数等标准。
微调执行
初始化选定参数为预训练权重，冻结其余参数。使用定制数据集通过随机梯度下降（SGD）或Adam优化算法训练选定参数。
性能验证
在验证数据集评估微调模型性能，采用与目标任务匹配的度量指标，检验PEFT在最少参数量下的效能达成度。
渐进优化（可选）
根据需求循环优化：调整参数选择标准、探索不同子集或增加训练轮次，持续提升模型能力。

七、提升计算模型微调效率的技术

1. 适配器方法
该技术通过在主模型层间插入微型神经网络层，实现非侵入式任务适配。这种模块化方法以最小改动吸收新数据，优化参数利用效率，同时保持主干网络稳定。

2. LoRA（局部重参数化算法）
LoRA创新性地对预训练模型局部组件进行重参数化，通过调整关键因子而非整体架构，在显著降低算力消耗的同时精准达成目标，大幅提升模型适应性与多任务处理能力。

3. 前缀调优法
该前沿技术专注于调整输入序列的固定长度前缀，通过修改关键组件掌握任务核心，显著降低微调复杂度。其优势在于聚焦核心要素而不增加学习过程负担。

4. 提示调优法
通过独立修改任务提示而非整体架构，在提示嵌入空间进行扩展或微调。此方案在保留原始模型基础上实现专业化适配，以极低算力代价达成精细任务理解。

5. P调优（模式调优）法
这种突破性技术将可学习模式引入输入空间，通过调整特定模式结构实现精准任务适配。相较传统方案，其在避免高算力需求的同时提供高度灵活的定向优化能力。

八、代码实现

用 pip 安装PEFT

pip install peft

使用PEFT方法（例如LoRA）准备训练模型时，需通过get_peft_model封装基础模型和PEFT配置。以bigscience/mt0-large模型为例，仅需训练0.19%的参数！

from transformers import AutoModelForCausalLM from peft import LoraConfig, TaskType, get_peft_model device = "cuda" model_id = "Qwen/Qwen2.5-3B-Instruct" model = AutoModelForCausalLM.from_pretrained(model_id, device_map=device) peft_config = LoraConfig(     r=16,     lora_alpha=32,     task_type=TaskType.CAUSAL_LM,     # target_modules=["q_proj", "v_proj", ...]  # optionally indicate target modules ) model = get_peft_model(model, peft_config) model.print_trainable_parameters() # prints: trainable params: 3,686,400 || all params: 3,089,625,088 || trainable%: 0.1193 # now perform training on your dataset, e.g. using transformers Trainer, then save the model model.save_pretrained("qwen2.5-3b-lora")

加载PEFT模型进行推理时：

from transformers import AutoModelForCausalLM, AutoTokenizer from peft import PeftModel device = "cuda" model_id = "Qwen/Qwen2.5-3B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id, device_map=device) model = PeftModel.from_pretrained(model, "qwen2.5-3b-lora") inputs = tokenizer("Preheat the oven to 350 degrees and place the cookie dough", return_tensors="pt") outputs = model.generate(inputs.to(device), max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) # prints something like: Preheat the oven to 350 degrees and place the cookie dough in a baking dish [...]

Transformers：
PEFT已直接集成至Transformers。加载模型后，调用
add_adapter为模型添加新的PEFT适配器：

from peft import LoraConfig model = ...  # transformers model peft_config = LoraConfig(...) model.add_adapter(lora_config, adapter_name="lora_1")

加载训练完成的PEFT适配器时，调用load_adapter：

model = ...  # transformers model model.load_adapter(<path-to-adapter>, adapter_name="lora_1")

切换不同适配器时，调用set_adapter：

model.set_adapter("lora_2")

Transformers集成
Transformers集成并非包含PEFT提供的全部功能，例如将适配器合并至基础模型的方法。

Accelerate
Accelerate是支持多种训练设置与硬件平台（GPU、TPU、Apple Silicon等）分布式训练及推理的库。PEFT模型可开箱即用地与Accelerate协同工作，使得在资源有限的消费级硬件上训练极大规模模型或进行推理极为便捷。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/186313.html