欢迎大家来到IT世界,在知识的湖畔探索吧!
小知导读
在本期学术分享会中,AI算法团队负责人张老师为我们介绍了一种新兴的人工智能网络架构:KAN。
相较于传统的多层感知器(MLP),KANs引入了一种较为新颖的方法,它用单变量函数替换了所有的权重参数,使得网络有可能探索到更优的结构配置。这样的设计或许可以在相对较少的层级上实现复杂任务,并且可能提升模型结果的可解释性。
实验论证通过与 MLP 对比,显示 KAN 在逼近典型函数准确性、连续学习能力和可解释性上表现出色。
欢迎大家来到IT世界,在知识的湖畔探索吧!
对比MLP和KAN
▊MLPs在节点——「神经元」上具有固定的激活函数。
▊KANs在边——「权重」上具有可学习的激活函数。
KAN设计
一、KAN
采用了B样条。它利用一些局部的基函数,最终的样条函数实际上是这些局部基函数的线性组合。并使用样条函数的一个优势是它允许你在不同的分辨率之间自由切换。
KANs = splines(低维函数中准确) + MLPs(可学习组合结构)。
二、实验细节
1、残差激活函数
在文中公式(2.10)中,每个激活函数 ϕ(x) 被设计为残差形式,即包括一个基函数 b(x)和一个B-样条函数。这里的b(x)通常选择为SiLU函数,提供了非线性的基本变换。在大多数情况下, spline(x)被参数化为B-splines的线性组合,其中ci是可训练的。
2、初始化规模
每个激活函数都被初始化为spine(x)≈0 , w根据 Xavier 初始化方法进行初始化,这种方法已被用于初始化 MLP 中的线性层。
3、样条网格的更新
通常,对于单层样条,数据范围是固定的,这使得设定一个有界区域变得简单。但在KAN中,由于它是多层的,后面层的样条输入实际上是不确定的,会随训练改变。这导致一个问题:样条必须在一个有界区域内工作,所以当区域改变时,需要动态更新这个区域。
三、参考数量
为简单起见,我们假设一个网络:
1、深度为L层
2、每层 N 个节点。
3、每个样条函数的阶数通常为k=3,在G个区间上G+1个网格点。
那么KAN总共大约有 O(N2L(G+k))或O(N2LG)个参数。相比之下,具有深度L和宽度 N 的多层感知机(MLP)只需要 O(N2L)个参数,KAN貌似参数量更高。
但是实验发现,KAN通常需要比MLP小得多的N就可以达到更好的效果。
换句话理解,就是借助 spline 样条函数的表达能力,无需很多节点就能实现比较强的表达能力,因此总的来说,KAN可以比 MLP 节省不少参数量。
四、逼近能力和缩放能力的讨论
1、逼近能力
简单来说,就是从数学上证明可以通过构建多层的B样条函数网络来有效逼近复杂函数。尽管增加网络的深度和复杂度,KANS能够通过细致的网格划分来逼近高维函数,而不会受到维数灾难的影响。
2、缩放定律
随着参数数量的增加,模型表现能力可以提升。并且对比了几种理论,如何应用他们指导神经网络的设计。
五、KAN如何提升准确性
▊MLPs 通过增加模型的宽度和深度可以提高性能,但其效率低下,因为需要独立地训练不同大小的模型。
▊对于KANs,可以先训练具有较少参数的KAN,然后通过简单地使其样条网格更细来将其扩展为具有更多参数的KAN,而无需重新从头开始训练较大的模型。
基本原理就是通过将样条函数(splines)旧的粗网格转换为更细的网格,并对应地调整参数,无需从头开始训练就能扩展现有的 KAN 模型。这种技术称为“网格扩展”(grid extension)。
五、KAN如何提升解释性
交互式的训练方式:稀疏化,剪枝,设定符号函数,进一步训练,输出符号函数。
实验论证
一、实验论证KAN的准确性
▊比较了 KAN与 MLP 在逼近5个典型函数上的性能。横轴是参数量,纵轴为均方根误差(RMSE)。总的来说,KAN和 MLP随着参数数量的增加,RMSE都在下降。
▊在大多数情况下,KAN(蓝色线)比相同深度的MLP具有更低的RMSE,尤其是在参数数量较少时。这表明 KAN在参数利用效率上可能更高。
二、连续学习的能力
▊顶行展示了用于回归任务的一维数据,包含五个高斯峰数据按阶段顺序呈现,每个阶段只展示一部分数据峰。
▊KANS能够在新增数据的学习中保持之前学到的知识,而 MLP 表现出严重的灾难性遗忘,即新学的信息严重干扰了旧知识的记忆。
三、KAN的可解释性——监督学习
借助前面提升模型可解释性的小技巧,包括稀疏化、剪枝等,KAN网络最终形成的网络结构不仅能够实现数学函数的拟合,而且其形式本身能反映出被拟合函数的内在结构。
一、KAN的准确性
小知小结
一、MLPs or KANs?
文中给出了一张决策树告诉我们如何进行选择,分别从准确性、可解释性以及效率这3个维度来判断如何进行选择。
因为目前 KANs 的最大问题在于训练速度较慢,相同数量的参数情况下,KANs 通常比 MLPs 慢 10 倍。
二、KAN的局限和未来方向
1、数学方面
其实对 Kolmogorov-Arnold 表示定理做了很多简化,而且这个定理本身并没有考虑深层情况,也许增加深度概念后数学基础更强。
2、算法方面
(1)准确性:还没有充分探索 KANS的架构设计和训练方法,以改进模型准确性,比如替换 spline 激活函数,也许更好。
(2)效率:KAN 运行缓慢的一个主要原因是不同的激活函数无法利用批量计算。为此,可以在激活函数全部相同和全部不同之间找到平衡点,通过将激活函数分组为多个“多头”,组内成员共享相同的激活函数,从而实现效率提升。
(3)KAN 和多层感知机的混合:KAN 与多层感知机的主要区别有两点:(i) 激活函数位于边上(KAN)而非节点上(MLP);(ii) 激活函数是可学习的(KAN)而非固定的(MLP)。未来KAN是不是可以与 MLP 混合使用也值得考虑。
3、应用方面
初步结果表明,与多层感知机相比,KAN 在科学任务中表现更优。此外 KAN有望应用于机器学习相关任务,例如将 KAN 集成到现有架构中,例如提出”kansformers”等。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/103837.html