【Fine-tuning】 详解:Feature Extraction、Linear Probing 与 End-to-End 的区别

📅 发布时间:2026/7/4 17:22:32 👁️ 浏览次数:
【Fine-tuning】 详解:Feature Extraction、Linear Probing 与 End-to-End 的区别
​ 在深度学习实践中我们很少从零开始训练一个模型。更常见的做法是基于预训练模型通过迁移学习解决新任务。​ 而在迁移学习中Fine-tuning微调是最核心、也最容易混淆的概念之一。​ 本文将系统梳理 Fine-tuning 的几种常见策略并重点解释以下几个高频术语之间的关系Feature ExtractionLinear ProbingFull Fine-tuningEnd-to-End一、什么是 Fine-tuning​Fine-tuning微调是指将在大规模数据集上预训练好的模型迁移到新任务上并对模型参数进行一定程度的调整。​ 根据是否更新预训练模型的特征提取层参数Fine-tuning 通常分为两大类策略策略英文别名参数更新范围冻结特征微调Feature Extraction / Linear Probing仅分类头不冻结特征微调Full Fine-tuning / End-to-End全部参数二、Feature Extraction特征提取​ 整体流程可以抽象为2.1 概念说明​Feature Extraction的核心思想是把预训练模型当作一个固定的特征提取器来使用。​ 模型的主体结构Backbone不再学习只负责将输入映射为高维特征。2.2 具体做法加载预训练模型冻结所有特征提取层参数requires_gradFalse在其后新增一个分类器只训练新增的分类器2.3 直观类比​ 可以把预训练模型理解为一台已经调好参数的相机相机本身不再改动你只训练一个人学会如何根据照片内容做判断2.4 适用场景数据量较小训练资源有限快速验证模型可行性三、Linear Probing线性探测3.1 什么是 Linear Probing​Linear Probing是 Feature Extraction 的一种特殊形式。其特点是冻结整个预训练模型分类器只使用一个线性层Linear Layer仅训练这一层# Linear Probing 的本质frozen_featurespretrained_model(image)# 冻结不训练outputnn.Linear(768,num_classes)(frozen_features)# 只训练这一层3.2 为什么叫“探测”​ “Probing” 并不是为了追求最优性能而是为了评估预训练特征的质量如果只用一个线性层就能在下游任务上取得不错的效果说明预训练模型已经学到了高度可迁移的通用特征因此Linear Probing 常用于对比不同预训练模型验证自监督学习或预训练策略的效果3.3 与 Feature Extraction 的关系Linear Probing ⊂ Feature Extraction区别仅在于分类器的复杂度Feature Extraction分类器可以是 MLPLinear Probing分类器严格为线性层四、 Full Fine-tuning全量微调4.1 概念说明​Full Fine-tuning指的是使用预训练权重作为初始化但在训练过程中更新模型的所有参数。​ 也就是说预训练模型不再是“固定特征提取器”而是会根据新任务进行整体调整。图像 → [预训练模型的所有层] → 预测结果 (全部学习)4.2 直观类比​ 如果说 Feature Extraction 是“只训练识别的人”那么 Full Fine-tuning 则是人和相机一起训练镜头、焦距、曝光参数都可以被重新调整。4.3 适用场景数据量充足新任务与预训练任务差异较大追求最佳下游任务性能5. End-to-End端到端训练5.1 概念说明​End-to-End强调的是训练方式而不是模型结构梯度从输出端一直反向传播到输入端整个模型链路全部参与训练。输入端 输出端 │ │ ▼ ▼ 图像 → [层1] → [层2] → ... → [层N] → [分类头] → 预测 ↑ ↑ ↑ ↑ └───────┴──────────────┴────────┘ 全部参与训练端到端5.2 与 Full Fine-tuning 的关系在迁移学习语境下End-to-End ≈ Full Fine-tuning二者的区别主要在于侧重点Full Fine-tuning强调“所有参数都被微调”End-to-End强调“从输入到输出整体优化”六、术语对照与总结英文术语中文含义训练范围常见用途Feature Extraction特征提取仅分类器小数据集、快速实验Linear Probing线性探测仅线性层评估预训练特征质量Full Fine-tuning全量微调全部参数大数据集、追求最优效果End-to-End端到端训练全部参数与 Full Fine-tuning 等价Frozen Backbone冻结骨干网络仅分类头Feature Extraction 的别称Transfer Learning迁移学习视策略而定上述方法的统称