cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强Attention Driven Training Free Efficiency Enhancement of Diffusion Models 研究背景扩散模型 Diffusion Models DMs 在生成高质量和多样化的图像方面表

欢迎大家来到IT世界,在知识的湖畔探索吧!

cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强



欢迎大家来到IT世界,在知识的湖畔探索吧!

Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models

研究背景

扩散模型(Diffusion Models, DMs)在生成高质量和多样化的图像方面表现出色,但其卓越的性能是以巨大的计算成本为代价的。尤其是在文本到图像的生成任务中,即使是最先进的潜在扩散模型(Latent Diffusion Models, LDMs),其推理过程仍然相对缓慢,这对于在资源受限的设备上部署这些模型构成了挑战。因此,提高扩散模型的效率成为了一个重要的研究方向。

研究意义

本研究旨在提出一种无需重训练即可提升扩散模型效率的方法,这对于加速扩散模型的推理过程、降低计算成本具有重要意义。通过提高模型效率,可以使扩散模型更加适用于移动设备和边缘计算场景,推动计算机视觉和生成式AI技术的广泛应用。

文献综述

现有提高扩散模型效率的方法主要分为两类:高效采样策略和高效模型架构。高效采样策略通过减少所需的去噪步骤来加速生成过程,但无法降低内存占用。而高效模型架构则通过减少每个步骤的成本来实现加速,但通常需要对模型进行重训练,这既耗时又昂贵。本研究关注于训练后的模型压缩,特别是利用注意力图来指导模型压缩,这是一个相对未被充分探索的领域。

具体方法

本文提出了注意力驱动的无需重训练的高效扩散模型(Attention-driven Training-free Efficient Diffusion Model, AT-EDM)框架。该框架通过以下两个关键步骤来提升扩散模型的效率:

单步去噪令牌修剪‌:

利用注意力图来识别不重要的令牌,并通过广义加权页面排名(Generalized Weighted Page Rank, G-WPR)算法为每个令牌分配重要性分数。

根据重要性分数生成修剪掩码,并应用掩码来修剪令牌,从而实现注意力块的加速。

为了解决修剪后的令牌与后续卷积操作不兼容的问题,提出了一种基于相似性的令牌复制方法来恢复修剪的令牌。

去噪步骤感知的修剪(Denoising-Steps-Aware Pruning, DSAP)‌:

分析不同去噪步骤中注意力图的方差,发现早期步骤中的注意力图较为混乱且信息量较少,因此提出在早期步骤中减少令牌修剪量,以提高生成图像的质量。

设计了一种去噪步骤感知的修剪计划,通过在不同去噪步骤中调整修剪预算来优化生成质量。

cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图1

  • 标题:Examples of applying AT-EDM to SD-XL
  • 内容:展示了应用AT-EDM框架到Stable Diffusion XL(SD-XL)模型上的效果。对比了原始全尺寸模型(上排)和加速后的模型(下排)在生成图像时的浮点运算数(FLOPs)。加速后的模型在FLOPs上有约40%的减少,同时保持了相近的生成质量。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图2

  • 标题:U-Net FLOPs breakdown of SD-XL
  • 内容:分析了SD-XL模型中U-Net组件的FLOPs分布。指出注意力块(Attention blocks)是生成图像时的主要工作负载,占据了大部分的计算资源。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图3

  • 标题:Overview of our proposed framework AT-EDM
  • 内容:概述了AT-EDM框架的两个主要部分:单去噪步骤的令牌剪枝方案(Token pruning scheme in a single denoising step)和去噪步骤感知的剪枝调度(Denoising-Steps-Aware Pruning schedule)。详细描述了从获取注意力图到令牌剪枝,再到恢复剪枝令牌以及跨去噪步骤的剪枝调度等步骤。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图4

  • 标题:Our similarity-based copy method for token recovering
  • 内容:展示了相似性基于的令牌复制方法,用于解决剪枝后令牌与ResNet层不兼容的问题。通过找到与剪枝令牌最相似的保留令牌来恢复剪枝令牌,从而保持图像质量。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图5

  • 标题:Variance of attention maps in different denoising steps
  • 内容:分析了在不同去噪步骤中注意力图的方差变化。将去噪步骤分为四个典型区域,并指出早期步骤的注意力图方差较小且增长迅速,而后期步骤的方差较大且相对稳定。这一观察结果支持了去噪步骤感知的剪枝调度设计。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图6: AT-EDM与ToMe的生成图像对比

  • 描述
    • 比较了原始Stable Diffusion XL(SD-XL)模型、Token Merging(ToMe)方法以及提出的AT-EDM方法在相同FLOPs预算下的生成图像质量。
    • AT-EDM在保持相近FID和CLIP分数的同时,实现了显著的FLOPs节省(约40%)。
    • 相较于ToMe,AT-EDM生成的图像具有更清晰的物体、更锐利的细节以及更好的文本-图像对齐。
  • 关键点
    • 效率:AT-EDM在减少计算量的同时保持了高质量的图像生成。
    • 图像质量:AT-EDM生成的图像在物体保留、细节清晰度以及文本-图像对齐方面优于ToMe。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图7: FID-CLIP分数曲线

  • 描述
    • 展示了不同Classifier-Free Guidance(CFG)尺度下,SD-XL、ToMe和AT-EDM的FID和CLIP分数。
    • AT-EDM在大多数CFG尺度下,不仅降低了FID分数(提高图像质量),还提高了CLIP分数(改善文本-图像对齐)。
  • 关键点
    • FID分数:衡量生成图像与真实图像分布的差异,分数越低表示图像质量越高。
    • CLIP分数:衡量生成图像与文本提示之间的语义相似性,分数越高表示对齐越好。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

表1展示了在不同浮点运算数(FLOPs)预算下,部署Token Merging(ToMe)和本文提出的AT-EDM方法在Stable Diffusion XL(SD-XL)模型上的性能对比。主要指标包括FID分数、CLIP分数和每个去噪步骤的平均FLOPs。

  • FID分数:用于评估生成图像的质量,分数越低表示图像质量越好。从表中可以看出,在相同的FLOPs预算下,AT-EDM方法获得的FID分数明显低于ToMe方法,表明AT-EDM生成的图像质量更高。
  • CLIP分数:用于评估生成图像与文本提示的对齐程度,分数越高表示对齐越好。AT-EDM方法在大多数FLOPs预算下都获得了更高的CLIP分数,说明其生成的图像与文本提示更加匹配。
  • FLOPs:表示每个去噪步骤的平均浮点运算数,用于衡量计算成本。随着FLOPs预算的减少,两种方法的计算成本都相应降低,但AT-EDM在保持较低FLOPs的同时,仍能保持较好的图像质量和文本对齐性。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

表2比较了SD-XL、ToMe和AT-EDM在不同实现情况下的采样延迟。

  • w/o FO:表示在不使用Fused Operation(FO)库的情况下,各模型的采样延迟。AT-EDM在这种情况下的延迟略低于ToMe,但两者都显著高于SD-XL。
  • w/FO under CI:表示在使用当前实现的FO库(不提供注意力图作为中间结果)的情况下,各模型的采样延迟。由于需要额外获取注意力图,AT-EDM的延迟有所增加,但仍低于ToMe。
  • w/FO under DI:表示在理想情况下(FO库提供注意力图作为中间结果),各模型的采样延迟。在这种情况下,AT-EDM的延迟显著降低,甚至低于SD-XL,展示了其在实际应用中的潜力。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图8: G-WPR算法的不同实现对比

  • 描述
    • 比较了基于自注意力(SA-based WPR)和基于交叉注意力(CA-based WPR)的G-WPR算法在图像生成和剪枝掩码上的差异。
    • SA-based WPR生成的图像质量优于CA-based WPR,因为后者可能会移除过多的背景tokens,导致背景难以恢复。
  • 关键点
    • 自注意力 vs 交叉注意力:自注意力在实现上更适合于保持图像质量,因为它能更准确地识别不重要的tokens。
    • 剪枝掩码:展示了不同算法下哪些tokens被剪枝,反映了算法在识别冗余信息上的差异。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图9: 不同token恢复方法的对比

  • 描述
    • 比较了零填充、双三次插值、直接复制和相似性复制四种方法在恢复剪枝tokens后的图像质量。
    • 相似性复制方法通过利用注意力图选择最相似的保留tokens来填充剪枝位置,显著提高了图像质量。
  • 关键点
    • 零填充与插值:这些方法通常会导致图像质量的明显下降,因为它们不能有效地恢复剪枝tokens的信息。
    • 相似性复制:通过利用注意力图中的相关性信息,能够更准确地恢复剪枝tokens,从而保持图像质量。
cvpr 2024|注意力驱动的无需重训练的高效扩散模型增强

图10: 不同数量prune-less步骤的对比

  • 描述
    • 探索了在早期denoising步骤中设置不同数量的prune-less步骤对生成图像质量的影响。
    • 当设置15个早期的prune-less步骤时,生成的图像质量最佳。
  • 关键点
    • prune-less步骤:在早期denoising步骤中不进行剪枝,以保留对图像质量贡献较大的计算。
    • 最优步骤数:通过消融实验发现,设置15个prune-less步骤能够在减少计算量和保持图像质量之间取得最佳平衡。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/125491.html

(0)
上一篇 30分钟前
下一篇 17分钟前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们YX

mu99908888

在线咨询: 微信交谈

邮件:itzsgw@126.com

工作时间:时刻准备着!

关注微信