Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration-CVPR2024

📅 发布时间：2026/7/4 16:52:58 👁️ 浏览次数：

Paperhttps://arxiv.org/pdf/2401.13627Codehttps://github.com/Fanghua-Yu/SUPIRBaselineStableDiffusion-XL (SDXL)文章目录前言3. Method3.1. Model Scaling Up3.2. Scaling Up Training Data3.3. Restoration-Guided Sampling4. Experiments4.1. Model Training and Sampling Settings4.2. Comparison with Existing Methods4.3. Controlling Restoration with Textual Prompts4.4. Ablation Study5. Conclusion前言问题Image Restoration然而这些方法单任务通常基于特定的退化假设[25,50,56]因此缺乏对其他退化的泛化能力Generative Prior然而这些基于扩散的红外方法的性能受到所使用的生成模型的规模的限制这对进一步提高其有效性提出了挑战。Model Scaling然而扩大规模是一个系统问题涉及模型设计、数据收集、计算资源和其他限制。许多其他任务尚未能够享受到扩展带来的实质性性能改进。IR就是其中之一。动机不断提高生成先验的能力是获得更好的 IR 结果的关键模型缩放是一个关键和有效的方法。有许多任务已经从缩放中获得了惊人的改进例如SAM 和大型语言模型(large language models)。这进一步推动了我们对构建能够产生超高质量图像的大规模智能 IR 模型的追求。然而由于计算资源、模型架构、训练数据以及生成模型和IR的合作等工程限制扩大IR模型是一项挑战。贡献在这项工作中我们引入了SUPIR这是迄今为止最大的 IR 方法旨在探索在恢复视觉效果和智能方面的更大潜力。具体来说SUPIR使用StableDiffusion-XL (SDXL)作为强大的生成先验它包含26亿个参数。为了有效地在IR中部署该模型我们设计并训练了一个large-scale adaptor该适配器包含一个名为ZeroSFT connector的新组件。为了最大化模型缩放的好处我们收集了超过2000万张高质量、高分辨率图像的数据集每张图像都附有详细的描述性文本。我们利用130亿个参数的多模态语言模型来提供图像内容提示大大提高了我们方法的准确性和智能性。所提出的SUPIR模型在各种IR任务中表现出卓越的性能实现了最佳的视觉质量特别是在复杂和具有挑战性的现实世界场景中。此外该模型通过文本提示提供对恢复过程的灵活控制极大地扩展了IR的可能性。图1说明了我们模型的影响。3. Method3.1. Model Scaling Up1Generative Prior我们选择SDXL的原因如下。Imagen 和 IF 优先考虑文本到图像的生成并依赖于分层方法。他们首先生成小分辨率的图像然后分层次地对它们进行采样。SDXL 与我们的目标一致直接生成高分辨率的图像没有分层设计有效地使用其参数来提高图像质量而不是专注于文本解释。此外SDXL 采用 Base-Refine 策略。在 Base 模型中会生成各种不同但质量较低的图像。随后Refine 模型利用的训练图像质量明显高于 Base 模型但多样性却低于 Base 模型从而提高了图像的质量。考虑到我们使用大量高质量图像数据集进行训练的方法SDXL 的双阶段设计对于我们的目标来说变得多余。我们选择 Base 模型它有更多的参数使其成为理想的生成先验。2Degradation-Robust Encoder在SDXL中扩散生成过程在潜在空间中进行。首先通过预训练的编码器将图像映射到潜在空间。为了有效地利用预训练的SDXL我们的 LQ 图像也应该映射到相同的潜在空间。但是由于原始编码器没有经过 LQ 图像的训练使用它进行编码会影响模型对LQ图像内容的判断从而将伪影误解为图像内容[49-DiffBIR]。为此我们对编码器进行微调使其对退化具有鲁棒的方法是最小化其中是要微调的退化鲁棒编码器是固定解码器是 ground truth。3Large-Scale Adaptor Design这部分就是如何让一个 26 亿参数的 SDXL在“不被破坏、不失控、不炸显存”的前提下听懂低质量图像并进行像素级可控的图像复原。但是SDXL 很大2.6B 参数IR 需要 pixel-level control不是随便生成LQ 图像 ≠ 文本 prompt直接套 ControlNet / LoRA 都不合适所以必须重新设计一个适配器Adaptor。LoRA[32]、T2I适配器[57] 和 ControlNet[92] 是现有的扩散模型自适应方法但它们都不满足我们的要求LoRA限制了生成只能调风格/语义不能精确对齐 LQ 图像且本质是低秩权重扰动 ; T2I缺乏LQ图像内容识别能力倾向于从外部条件引导生成边缘、深度、姿态; 而ControlNet的直接复制对于SDXL模型规模来说是一个挑战太大直接复制 SDXL encoder 根本训练不动。为了解决这个问题我们设计了一个具有两个关键特性的新适配器如图 3 图(a)所示。Trimmed ControlNet保留 ControlNet 思想但砍掉一半 encoder 只保留 N/2 个ViT block。还能 work 的原因砍掉一半 block只要结构仍像原 encoder初始化来自 SDXL那么条件信息仍然能对齐到 SDXL latent space。ZeroSFT ConnectorControlNet 的 zero-conv 不够需要更强的像素级控制。ZeroSFT ZeroConv SFT GroupNorm 不仅加一点条件残差而是用条件特征直接调制主干特征分布。输入三路特征主干 decoder featurefixedencoder shortcut feature来自 adaptorLQ guidance。3.2. Scaling Up Training Data1Image Collection模型的缩放需要对训练数据[38-Scaling Laws for Neural Language Models]进行相应的缩放。但是目前还没有大规模的高质量红外图像数据集。虽然DIV2K[3]和LSDIR[1]提供高图像质量但它们的数量有限。ImageNet (IN)[17]、LAION-5B[67]、SA-1B[44]等较大的数据集包含的图像较多但其图像质量不符合我们的高标准。为此我们收集了一个大规模的高分辨率图像数据集其中包括 2000 万张 1024×1024 高质量、纹理丰富的图像。收集到的数据集与现有数据集的尺度对比如图 3 所示。我们还从 FFHQ-raw 数据集[40]中额外加入了 70K 未对齐的高分辨率面部图像以提高模型的面部恢复性能。在图 5(a) 中我们显示了与其他知名数据集相比我们数据的相对大小。2Multi-Modality Language Guidance我们认为文本提示也可以帮助 IR 识别(1) 理解图像内容对 IR 至关重要。现有框架往往忽略或隐式处理这种理解[24,29]。通过结合文本提示我们明确地将对 LQ 图像的理解传达给 IR 模型促进有针对性地恢复缺失信息。(2) 在严重退化的情况下即使是最好的 IR 模型也很难完全恢复丢失的信息。在这种情况下文本提示可以作为一种控制机制根据用户偏好有针对性地完成缺失的信息。(3) 我们还可以通过文本描述期望的图像质量进一步增强输出的感知质量。一些例子见图 1(b)。为此我们做了两个主要的修改首先我们修改了整体框架将LLaVA多模态大型语言模型[51]纳入我们的 pipeline如图 2 所示。LLaVA 将经过退化鲁棒处理的 LQ 图像作为输入显式地理解图像中的内容以文本描述的形式输出。然后使用这些描述作为提示来指导恢复。该过程可以在测试期间自动化从而消除了人工干预的需要。其次我们按照PixART[12]的方法对所有的训练图像进行文本标注加强文本控制在我们模型训练过程中的作用。3Negative-Quality Samples and Prompt无分类器引导(CFG)[30]提供了另一种控制方式通过使用负面提示为模型指定不需要的内容。我们可以使用这个特征来指定模型不产生低质量的图像。具体来说在扩散的每一步我们将使用正提示pos 和负提示neg 进行两次预测并将这两个结果的融合作为最终输出:其中为带适配器的扩散模型为时间步长为 t 的噪声方差为超参数。然而在我们的训练数据中缺少负质量的样本和提示可能导致微调后的 SUPIR 在理解负提示方面失败。因此在采样期间使用负质量提示可能会引入伪影示例参见图 4。为了解决这个问题我们使用SDXL生成了100K的图像对应于低质量的提示。我们反直觉地将这些低质量图像添加到训练数据中以确保所提出的SUPIR模型可以学习到负质量概念。3.3. Restoration-Guided Sampling强 generative prior 是双刃剑生成能力太强会破坏复原的忠实性fidelity。如何在采样阶段把 diffusion 拉回到 LQ 图像附近而不是重新训练模型为了解决这一问题我们对 EDM 采样方法[41]进行了改进提出了一种恢复引导采样方法。我们希望在每个扩散步骤中有选择地引导预测结果接近 LQ 图像。我们在预测输出和LQ潜在之间进行加权插值作为恢复引导输出。本文利用了 diffusion 一个已知但常被忽略的性质diffusion 的时间语义早期大,大大主要生成低频 / 结构后期小,小小主要生成高频 / 纹理。RGS早期强约束拉近 LQ保结构后期弱约束放手生成保细节。的物理意义当大预测被强行拉向 LQ latent当小几乎不干预模型预测。 fidelity - realism 的旋钮小始终较大输出 ≈ LQ → 保真但糊大约束很弱输出 ≈ generative prior → 锐但可能假实验选择 4是一个折中点。4. Experiments4.1. Model Training and Sampling Settings我们使用学习率为0.00001的AdamW优化器[53]。训练过程持续10天在64个Nvidia A6000 GPU上进行批量大小为256个。对于测试超参数T1007.54。我们的方法能够处理大小为1024×1024的图像。我们将输入图像的短边调整为1024并裁剪1024×1024子图像进行测试然后在恢复后将其调整回原始大小。除非另有说明否则不会手动提供提示-处理将完全自动进行。4.2. Comparison with Existing Methods1Synthetic Data2Restoration in the Wild4.3. Controlling Restoration with Textual Prompts4.4. Ablation Study1Connector2Training data scaling3Negative-quality samples and prompt4Restoration-guided sampling method5. Conclusion我们提出了SUPIR作为一种开创性的IR方法通过模型缩放、数据集丰富和先进的设计功能来增强IR通过增强的感知质量和受控的文本提示来扩展IR的视野。

相关新闻

最新新闻

日新闻

周新闻

月新闻