欢迎大家来到IT世界,在知识的湖畔探索吧!
欢迎大家来到IT世界,在知识的湖畔探索吧!
LSNet: See Large, Focus Small
研究背景
随着计算机视觉领域的快速发展,卷积神经网络(CNNs)和视觉转换器(ViTs)等视觉网络设计在图像分类、目标检测、语义分割等任务中取得了显著成就。然而,这些网络通常计算复杂度较高,限制了它们在实时应用中的部署。为了应对这一挑战,研究者们致力于开发轻量级且高效的视觉网络模型。然而,现有的轻量级模型大多依赖于自注意力机制和卷积进行特征混合,这在感知和聚合过程中存在效率和有效性的局限,难以在有限的计算预算下实现高性能。
研究意义
本研究旨在提出一种新颖的轻量级视觉网络设计方法,通过模仿人类视觉系统的动态异尺度视觉能力,实现更高效和准确的视觉信息处理。该方法不仅能够提升轻量级模型在各类视觉任务中的性能,还能为实时应用提供可行的解决方案,具有重要的理论价值和实际意义。
具体方法
本研究提出了一种“看大聚小”(See Large, Focus Small)的策略,并基于该策略设计了LS(Large-Small)卷积和LSNet模型。具体方法如下:
LS卷积:
大核感知(LKP):采用大核深度可分离卷积捕获广泛的上下文信息,模拟人类视觉系统的外周视觉。
小核聚合(SKA):利用小核动态卷积和分组机制,在高度相关的视觉区域内自适应地聚合特征,模拟人类视觉系统的中央视觉。
LSNet模型:
基于LS卷积构建LS块,并结合常见的架构设计(如重叠补丁嵌入、下采样等)形成LSNet模型。
LSNet模型通过堆叠LS块和MSA块,实现多尺度特征提取和长距离依赖建模,提升整体性能。
图1: 自注意力与卷积的机制对比
- 图1(a): 自注意力机制。通过成对的相关性计算后经过softmax归一化得到注意力分数,进而对特征进行加权求和。这种方法实现了全局感知和全局聚合,但往往对缺乏显著互连的区域给予过多关注,导致在信息量较少的背景区域进行不必要的聚合,且计算复杂度较高。
- 图1(b): 卷积机制。利用相对位置关系进行感知,并通过静态核权重进行特征聚合。这种方法计算效率高,但对不同上下文的适应性差,限制了模型的表达能力。
- 图1(c): 人类视觉系统的“看大聚小”机制。通过外周视觉的大范围感知(See Large)和中央视觉的小范围聚焦(Focus Small)实现高效视觉信息处理。
- 图1(d): 人眼视网膜中视杆细胞和视锥细胞的分布。视杆细胞主要分布在视网膜周边,负责大范围的外周视觉;视锥细胞则集中在视网膜中央的视黄斑区,负责高分辨率的中央视觉。
图2: 自注意力、卷积与LS卷积的对比
- 图2(a): 自注意力机制通过全局感知和全局聚合进行特征混合。
- 图2(b): 卷积机制通过局部感知和静态核权重聚合进行特征混合。
- 图2(c): LS卷积结合大核感知和小核聚合,实现异尺度上下文信息的有效利用。
公式1表示token混合的基本过程,其中y_i是混合后的特征表示,A表示聚合操作,P表示感知操作,x_i是输入token,N(x_i)是x_i的上下文区域。
公式2,在自注意力机制中,P_{attn}通过softmax归一化后的成对相关性获得注意力分数,A_{attn}通过注意力分数对X的特征进行加权求和,得到y_i。
公式3,计算输入token x_i与所有token X之间的注意力分数,其中W_q和W_k是投影矩阵。
公式4,在卷积中,P_{conv}利用x_i与其邻域N_K(x_i)之间的相对位置关系来推导聚合权重,A_{conv}利用这些权重对N_K(x_i)中的特征进行卷积操作,得到y_i。
公式5,在卷积操作中,感知过程P_{conv}实际上是通过固定的卷积核权重W_{conv}来实现的,这些权重决定了如何根据相对位置关系对邻域特征进行聚合。
公式6表示LS卷积中的token混合过程,其中P表示大核感知操作,作用于较大的上下文区域N_P(x_i);A表示小核聚合操作,作用于较小的上下文区域N_A(x_i)。y_i是混合后的特征表示。
公式7,大核感知操作P_{ls}首先通过点卷积PW将token投影到较低维度,然后应用大核深度卷积DW_{K_L×K_L}捕获大范围的空间上下文信息,最后再通过点卷积PW建模token之间的空间关系,生成用于聚合的权重w_i。
公式8,小核聚合操作A_{ls}利用大核感知生成的权重w_{*ig}(重塑为适合小核卷积的尺寸)对高度相关的上下文N_{K_S}(x_{ic})进行卷积操作,得到聚合后的特征表示y_{ic}。
图3: LS卷积与LSNet的示意图
- 图3(a): LS卷积的示意图。首先通过大核深度可分离卷积进行大范围感知,然后通过小核动态卷积和分组机制进行小范围聚焦和特征聚合。
- 图3(b): LSNet的示意图。LSNet模型通过堆叠LS块和MSA块形成多阶段架构,实现多尺度特征提取和长距离依赖建模。
表1: ImageNet-1K图像分类结果
- 概述: 该表展示了LSNet与其他轻量级模型在ImageNet-1K数据集上的图像分类性能对比。
- 主要指标:Top-1 Accuracy: 表示模型预测的第一类别与实际类别一致的准确率。FLOPs: 表示模型进行前向传播时所需的浮点运算次数,是衡量模型计算复杂度的指标。Throughput: 表示模型每秒能处理的图像数量,是衡量模型推理速度的指标。
- 关键发现:LSNet在不同计算预算下均表现出色,在保持高效率的同时实现了高精度。例如,LSNet-B以1.3G FLOPs的计算量达到了80.1%的Top-1准确率,且推理速度远超其他模型。
表2: COCO-2017目标检测和实例分割结果
- 概述: 该表展示了LSNet在COCO-2017数据集上的目标检测和实例分割性能对比。
- 主要指标:AP^b: 表示边界框的平均精度,用于衡量目标检测性能。AP^m: 表示掩码的平均精度,用于衡量实例分割性能。FLOPs: 表示骨干网络的浮点运算次数。
- 关键发现:LSNet在RetinaNet和Mask R-CNN框架下均表现出色,以较低的计算成本实现了高精度。例如,在RetinaNet框架下,LSNet-T以0.6AP和1.3AP50的优势超越了StarNet-S1。
表3: ADE20K语义分割结果
- 概述: 该表展示了LSNet在ADE20K数据集上的语义分割性能对比。
- 主要指标:mIoU: 表示平均交并比,是语义分割任务中常用的性能指标。FLOPs: 表示骨干网络的浮点运算次数。
- 关键发现:LSNet在ADE20K数据集上实现了领先的语义分割性能,且计算成本较低。例如,LSNet-B以6.2G FLOPs的计算量达到了43.0%的mIoU。
表4: 鲁棒性评估结果
- 概述: 该表展示了LSNet在不同鲁棒性评估基准上的性能表现。
- 主要指标:mCE: 表示平均腐蚀误差,用于衡量模型对图像腐蚀的鲁棒性。Top-1 Accuracy: 在ImageNet-A、ImageNet-R和ImageNet-Sketch数据集上的Top-1准确率,用于评估模型对自然对抗样本、图像渲染变化和图像素描的鲁棒性。
- 关键发现:LSNet在多个鲁棒性评估基准上均表现出色,显示出强大的泛化能力和鲁棒性。例如,在ImageNet-C上,LSNet-B的mCE比UniRepLKNet-A低1.3。
表5: LS卷积的有效性分析
- 概述: 该表通过对比实验验证了LS卷积的有效性。
- 主要对比:“w/o LS conv.”: 移除所有LS卷积的基线模型。其他方法: 替换LS卷积为其他有效token混合方法(如(S)W-SA、SDTA等)。
- 关键发现:引入LS卷积后,模型性能显著提升(如Top-1准确率提高2.3%),且计算成本增加较少。与其他token混合方法相比,LS卷积在保持低计算成本的同时实现了更高的性能。
表6: 与其他卷积方法的比较
- 概述: 表6对比了LS卷积与其他动态卷积方法在ImageNet-1K数据集上的性能。
- 关键发现:LS卷积在Top-1准确率上显著优于其他动态卷积方法,如CondConv、DY-Conv等,同时保持了较低的FLOPs。这表明LS卷积通过结合大核感知和小核聚合,能够在不增加过多计算负担的情况下,提升模型的表示能力。
表7: 大核感知和小核聚合的重要性分析
- 概述: 表7通过消融实验分析了大核感知(LKP)和小核聚合(SKA)对LSNet性能的影响。
- 关键发现:移除LKP后,模型的Top-1准确率显著下降,表明大核感知对于捕捉广泛上下文信息至关重要。移除SKA后,模型性能同样下降,但下降幅度小于移除LKP,说明小核聚合在精细特征融合方面发挥了重要作用。调整LKP和SKA的核大小,发现存在最优的核大小配置,能够在准确率和计算成本之间取得平衡。
表8: 其他设计选择的影响
- 概述: 表8探讨了LSNet中其他设计选择(如分组数G、额外深度卷积和SE层)对性能的影响。
- 关键发现:分组数G对模型性能有一定影响,但分组过多会导致性能下降,分组数为8时性能最佳。移除额外的深度卷积和SE层后,模型性能略有下降,表明这些组件对于提升模型能力有一定贡献。
表9: LS卷积在其他架构上的泛化能力
- 概述: 表9展示了将LS卷积应用于其他经典架构(如ResNet和DeiT)后的性能提升。
- 关键发现:在ResNet50和DeiT-T中引入LS卷积后,模型的Top-1准确率分别提升了1.9%和0.8%,表明LS卷积具有良好的泛化能力,能够提升不同架构的性能。
文献综述
高效CNNs:近年来,研究者们提出了多种轻量级CNN架构,如MobileNet、ShuffleNet等,通过深度可分离卷积、通道洗牌等技术降低计算复杂度。然而,这些方法在感知和聚合过程中的效率和有效性仍有待提升。
高效ViTs:随着ViT的兴起,研究者们也开始探索轻量级ViT模型,如MobileViT、EdgeViT等。这些方法通过结合卷积和自注意力机制,实现了计算效率和性能之间的平衡。然而,如何在轻量级模型中更有效地进行特征混合仍是一个挑战。
特征混合方法:现有的特征混合方法主要包括自注意力和卷积。自注意力机制虽然能够实现全局感知,但计算复杂度较高;卷积则通过局部感知和静态核权重进行特征聚合,缺乏对不同上下文的适应性。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/130142.html