cvpr 2025｜LSNet: 看大聚小的高效视觉网络‌

云烟 • 23分钟前 • 编程

欢迎大家来到IT世界,在知识的湖畔探索吧!

欢迎大家来到IT世界,在知识的湖畔探索吧!

LSNet: See Large, Focus Small

研究背景

随着计算机视觉领域的快速发展，卷积神经网络（CNNs）和视觉转换器（ViTs）等视觉网络设计在图像分类、目标检测、语义分割等任务中取得了显著成就。然而，这些网络通常计算复杂度较高，限制了它们在实时应用中的部署。为了应对这一挑战，研究者们致力于开发轻量级且高效的视觉网络模型。然而，现有的轻量级模型大多依赖于自注意力机制和卷积进行特征混合，这在感知和聚合过程中存在效率和有效性的局限，难以在有限的计算预算下实现高性能。

研究意义

本研究旨在提出一种新颖的轻量级视觉网络设计方法，通过模仿人类视觉系统的动态异尺度视觉能力，实现更高效和准确的视觉信息处理。该方法不仅能够提升轻量级模型在各类视觉任务中的性能，还能为实时应用提供可行的解决方案，具有重要的理论价值和实际意义。

具体方法

本研究提出了一种“看大聚小”（See Large, Focus Small）的策略，并基于该策略设计了LS（Large-Small）卷积和LSNet模型。具体方法如下：

LS卷积‌：

大核感知（LKP）‌：采用大核深度可分离卷积捕获广泛的上下文信息，模拟人类视觉系统的外周视觉。

小核聚合（SKA）‌：利用小核动态卷积和分组机制，在高度相关的视觉区域内自适应地聚合特征，模拟人类视觉系统的中央视觉。

LSNet模型‌：

基于LS卷积构建LS块，并结合常见的架构设计（如重叠补丁嵌入、下采样等）形成LSNet模型。

LSNet模型通过堆叠LS块和MSA块，实现多尺度特征提取和长距离依赖建模，提升整体性能。

图1: 自注意力与卷积的机制对比

图1(a): 自注意力机制。通过成对的相关性计算后经过softmax归一化得到注意力分数，进而对特征进行加权求和。这种方法实现了全局感知和全局聚合，但往往对缺乏显著互连的区域给予过多关注，导致在信息量较少的背景区域进行不必要的聚合，且计算复杂度较高。
图1(b): 卷积机制。利用相对位置关系进行感知，并通过静态核权重进行特征聚合。这种方法计算效率高，但对不同上下文的适应性差，限制了模型的表达能力。
图1(c): 人类视觉系统的“看大聚小”机制。通过外周视觉的大范围感知（See Large）和中央视觉的小范围聚焦（Focus Small）实现高效视觉信息处理。
图1(d): 人眼视网膜中视杆细胞和视锥细胞的分布。视杆细胞主要分布在视网膜周边，负责大范围的外周视觉；视锥细胞则集中在视网膜中央的视黄斑区，负责高分辨率的中央视觉。

图2: 自注意力、卷积与LS卷积的对比

图2(a): 自注意力机制通过全局感知和全局聚合进行特征混合。
图2(b): 卷积机制通过局部感知和静态核权重聚合进行特征混合。
图2(c): LS卷积结合大核感知和小核聚合，实现异尺度上下文信息的有效利用。

公式1表示token混合的基本过程，其中y_i是混合后的特征表示，A表示聚合操作，P表示感知操作，x_i是输入token，N(x_i)是x_i的上下文区域。

公式2，在自注意力机制中，P_{attn}通过softmax归一化后的成对相关性获得注意力分数，A_{attn}通过注意力分数对X的特征进行加权求和，得到y_i。

公式3，计算输入token x_i与所有token X之间的注意力分数，其中W_q和W_k是投影矩阵。

公式4，在卷积中，P_{conv}利用x_i与其邻域N_K(x_i)之间的相对位置关系来推导聚合权重，A_{conv}利用这些权重对N_K(x_i)中的特征进行卷积操作，得到y_i。

公式5，在卷积操作中，感知过程P_{conv}实际上是通过固定的卷积核权重W_{conv}来实现的，这些权重决定了如何根据相对位置关系对邻域特征进行聚合。

公式6表示LS卷积中的token混合过程，其中P表示大核感知操作，作用于较大的上下文区域N_P(x_i)；A表示小核聚合操作，作用于较小的上下文区域N_A(x_i)。y_i是混合后的特征表示。

公式7，大核感知操作P_{ls}首先通过点卷积PW将token投影到较低维度，然后应用大核深度卷积DW_{K_L×K_L}捕获大范围的空间上下文信息，最后再通过点卷积PW建模token之间的空间关系，生成用于聚合的权重w_i。

公式8，小核聚合操作A_{ls}利用大核感知生成的权重w_{*ig}（重塑为适合小核卷积的尺寸）对高度相关的上下文N_{K_S}(x_{ic})进行卷积操作，得到聚合后的特征表示y_{ic}。

图3: LS卷积与LSNet的示意图

图3(a): LS卷积的示意图。首先通过大核深度可分离卷积进行大范围感知，然后通过小核动态卷积和分组机制进行小范围聚焦和特征聚合。
图3(b): LSNet的示意图。LSNet模型通过堆叠LS块和MSA块形成多阶段架构，实现多尺度特征提取和长距离依赖建模。

表1: ImageNet-1K图像分类结果

概述: 该表展示了LSNet与其他轻量级模型在ImageNet-1K数据集上的图像分类性能对比。
主要指标:Top-1 Accuracy: 表示模型预测的第一类别与实际类别一致的准确率。FLOPs: 表示模型进行前向传播时所需的浮点运算次数，是衡量模型计算复杂度的指标。Throughput: 表示模型每秒能处理的图像数量，是衡量模型推理速度的指标。
关键发现:LSNet在不同计算预算下均表现出色，在保持高效率的同时实现了高精度。例如，LSNet-B以1.3G FLOPs的计算量达到了80.1%的Top-1准确率，且推理速度远超其他模型。

表2: COCO-2017目标检测和实例分割结果

概述: 该表展示了LSNet在COCO-2017数据集上的目标检测和实例分割性能对比。
主要指标:AP^b: 表示边界框的平均精度，用于衡量目标检测性能。AP^m: 表示掩码的平均精度，用于衡量实例分割性能。FLOPs: 表示骨干网络的浮点运算次数。
关键发现:LSNet在RetinaNet和Mask R-CNN框架下均表现出色，以较低的计算成本实现了高精度。例如，在RetinaNet框架下，LSNet-T以0.6AP和1.3AP50的优势超越了StarNet-S1。

表3: ADE20K语义分割结果

概述: 该表展示了LSNet在ADE20K数据集上的语义分割性能对比。
主要指标:mIoU: 表示平均交并比，是语义分割任务中常用的性能指标。FLOPs: 表示骨干网络的浮点运算次数。
关键发现:LSNet在ADE20K数据集上实现了领先的语义分割性能，且计算成本较低。例如，LSNet-B以6.2G FLOPs的计算量达到了43.0%的mIoU。

表4: 鲁棒性评估结果

概述: 该表展示了LSNet在不同鲁棒性评估基准上的性能表现。
主要指标:mCE: 表示平均腐蚀误差，用于衡量模型对图像腐蚀的鲁棒性。Top-1 Accuracy: 在ImageNet-A、ImageNet-R和ImageNet-Sketch数据集上的Top-1准确率，用于评估模型对自然对抗样本、图像渲染变化和图像素描的鲁棒性。
关键发现:LSNet在多个鲁棒性评估基准上均表现出色，显示出强大的泛化能力和鲁棒性。例如，在ImageNet-C上，LSNet-B的mCE比UniRepLKNet-A低1.3。

表5: LS卷积的有效性分析

概述: 该表通过对比实验验证了LS卷积的有效性。
主要对比:“w/o LS conv.”: 移除所有LS卷积的基线模型。其他方法: 替换LS卷积为其他有效token混合方法（如(S)W-SA、SDTA等）。
关键发现:引入LS卷积后，模型性能显著提升（如Top-1准确率提高2.3%），且计算成本增加较少。与其他token混合方法相比，LS卷积在保持低计算成本的同时实现了更高的性能。

表6: 与其他卷积方法的比较

概述: 表6对比了LS卷积与其他动态卷积方法在ImageNet-1K数据集上的性能。
关键发现:LS卷积在Top-1准确率上显著优于其他动态卷积方法，如CondConv、DY-Conv等，同时保持了较低的FLOPs。这表明LS卷积通过结合大核感知和小核聚合，能够在不增加过多计算负担的情况下，提升模型的表示能力。

表7: 大核感知和小核聚合的重要性分析

概述: 表7通过消融实验分析了大核感知(LKP)和小核聚合(SKA)对LSNet性能的影响。
关键发现:移除LKP后，模型的Top-1准确率显著下降，表明大核感知对于捕捉广泛上下文信息至关重要。移除SKA后，模型性能同样下降，但下降幅度小于移除LKP，说明小核聚合在精细特征融合方面发挥了重要作用。调整LKP和SKA的核大小，发现存在最优的核大小配置，能够在准确率和计算成本之间取得平衡。

表8: 其他设计选择的影响

概述: 表8探讨了LSNet中其他设计选择（如分组数G、额外深度卷积和SE层）对性能的影响。
关键发现:分组数G对模型性能有一定影响，但分组过多会导致性能下降，分组数为8时性能最佳。移除额外的深度卷积和SE层后，模型性能略有下降，表明这些组件对于提升模型能力有一定贡献。

表9: LS卷积在其他架构上的泛化能力

概述: 表9展示了将LS卷积应用于其他经典架构（如ResNet和DeiT）后的性能提升。
关键发现:在ResNet50和DeiT-T中引入LS卷积后，模型的Top-1准确率分别提升了1.9%和0.8%，表明LS卷积具有良好的泛化能力，能够提升不同架构的性能。

文献综述

高效CNNs：近年来，研究者们提出了多种轻量级CNN架构，如MobileNet、ShuffleNet等，通过深度可分离卷积、通道洗牌等技术降低计算复杂度。然而，这些方法在感知和聚合过程中的效率和有效性仍有待提升。

高效ViTs：随着ViT的兴起，研究者们也开始探索轻量级ViT模型，如MobileViT、EdgeViT等。这些方法通过结合卷积和自注意力机制，实现了计算效率和性能之间的平衡。然而，如何在轻量级模型中更有效地进行特征混合仍是一个挑战。

特征混合方法：现有的特征混合方法主要包括自注意力和卷积。自注意力机制虽然能够实现全局感知，但计算复杂度较高；卷积则通过局部感知和静态核权重进行特征聚合，缺乏对不同上下文的适应性。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://itzsg.com/130142.html

云烟 2023年 4月 25日

你这文采，堪称现代李白

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主有大厦之将倾而面不改色，狂澜于既倒而稳如泰山只能。

评论于 Servlet 数据库访问[通俗易懂]
样 2023年 4月 25日

博主好文采

评论于古天乐拍戏误伤眼球缝八针！而他第一时间却只想给粉丝道歉[通俗易懂]
样 2023年 4月 25日

干货干货

评论于 UG编程，钻孔攻丝，铣螺纹，干货知识[亲测有效]
云烟 2023年 4月 25日

人家是chatGPT 不是GBT

评论于程序开发中MySql、SQLServer、SQLite数据库的使用场景及性能评测

cvpr 2025｜LSNet: 看大聚小的高效视觉网络‌

图1: 自注意力与卷积的机制对比

图2: 自注意力、卷积与LS卷积的对比

图3: LS卷积与LSNet的示意图

表1: ImageNet-1K图像分类结果

表2: COCO-2017目标检测和实例分割结果

表3: ADE20K语义分割结果

表4: 鲁棒性评估结果

表5: LS卷积的有效性分析

表6: 与其他卷积方法的比较

表7: 大核感知和小核聚合的重要性分析

表8: 其他设计选择的影响

表9: LS卷积在其他架构上的泛化能力

发表回复

联系我们YX

mu99908888

cvpr 2025｜LSNet: 看大聚小的高效视觉网络‌

图1: 自注意力与卷积的机制对比

图2: 自注意力、卷积与LS卷积的对比

图3: LS卷积与LSNet的示意图

表1: ImageNet-1K图像分类结果

表2: COCO-2017目标检测和实例分割结果

表3: ADE20K语义分割结果

表4: 鲁棒性评估结果

表5: LS卷积的有效性分析

表6: 与其他卷积方法的比较

表7: 大核感知和小核聚合的重要性分析

表8: 其他设计选择的影响

表9: LS卷积在其他架构上的泛化能力

相关推荐

发表回复

联系我们YX

mu99908888