百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

ICCV 2023 | 傅里叶算子高效Token Mixer:轻量级视觉网络新主干

liebian365 2024-11-02 13:34 21 浏览 0 评论

机器之心专栏

机器之心编辑部

来自微软亚洲研究院的研究人员发现对 Token 进行傅里叶变换数学上等价于用超大尺寸自适应卷积核进行 Token 融合,而前者的计算代价远低于后者。基于该核心发现,研究员设计了一种名为 Adaptive Fourier Filter(AFF)的轻量高效 Token Mixer,将 Token 融合的计算复杂度从 O (N^2) 降低到 O (N log N),并以此为基础算子构建了轻量级视觉神经网络主干 AFFNet。该主干网络能够以 5.5M 的模型参数量,在 ImageNet-1K 上实现 79.8% 的准确率。

1. 背景

近年来,基于 Transformer、Large-kernel CNN 和 MLP 三种视觉主干网络在广泛的 CV 任务中取得了显著的成功,这要归功于它们在全局范围内的高效信息融合能力。

现有的三大主流神经网络,即 Transformer、CNN 和 MLP,分别通过各自的方式实现全局范围的 Token 融合。其中,Transformer 网络中的自注意力机制将 Query-Key pairs 的相关性作为 Token 融合的权重。CNN 通过扩大 kernel 尺寸实现与 transformer 相近的性能。MLP 通过在所有令牌之间的全连接实现另一种强大的范式。所有这些方法都是有效的,但计算复杂度高 (O (N^2)),难以在存储和计算能力有限的设备上部署,限制了很多模型的应用范围。

2. AFF Token Mixer: 轻量、全局、自适应

为了解决计算昂贵的问题,研究人员构建了一种名为 Adaptive Fourier Filter(AFF)的高效全局 Token 融合算子。它通过傅里叶变换将 Token 集合变换到频域,同时在频域学习到一个内容自适应的滤波掩膜,对变换到频域空间中的 Token 集合进行自适应滤波操作。

论文《Adaptive Frequency Filters As Efficient Global Token Mixers》:

链接:https://arxiv.org/abs/2307.14008

根据频域卷积定理,原始域中的卷积操作在数学上等价于对应的傅里叶域中的 Hadamard 乘积操作。这使得该工作所提出的 AFF Token Mixer 在数学上等价于使用一个空间分辨率和 Token 集合一样大小的动态卷积核在原始域中进行 Token 融合 (如下图右子图所示), 具有在全局范围内进行内容自适应 Token 融合的作用。

众所周知,动态卷积的计算开销大,大空间分辨率的动态卷积核的使用开销对于高效 / 轻量级网络设计似乎就更加不可接受。但是本文所提出的 AFF Token Mixer 却可以作为同时满足以上优点的低功耗等效实现,将复杂性从 O (N^2) 降低到 O (N log N),显著提高了计算效率。

图 1:AFF 模块和 AFFNet 网络示意图。

3. AFFNet:轻量级视觉网络新主干

研究人员将 AFF Token Mixer 作为主要神经网络操作算子,构建了一个轻量级神经网络,称为 AFFNet。大量实验表明,AFF Token Mixer 在广泛的视觉任务中实现了优越的准确性和效率权衡,包括视觉语义识别和密集预测任务。

4. 实验结果

研究人员在视觉语义识别、分割、检测等多个视觉任务上对所提出的 AFF Token Mixer 和 AFFNet 进行评测,并将其和目前研究领域中最先进的轻量级视觉主干网络进行对比。实验结果表明,该工作提出的模型设计在广泛的视觉任务上均表现出色,验证了所提出的 AFF Token Mixer 作为新一代轻量高效的 Token 融合算子的潜力。

图 2:ImageNet-1K 数据集上的 Acc-Param, Acc-FLOPs 曲线,与 SOTA 的对比。

表 1:ImageNet-1K 数据集上和 SOTA 的对比

表 2:下游任务(视觉检测和分割)和SOTA的对比。

5. 结论

此项研究成果从数学上证明了隐空间中的频域变换能起到全局自适应 Token 融合的作用,是神经网络中实现全局自适应 Token 融合的一种高效能低功耗的等效实现。为神经网络中 Token 融合算子的设计打开了新的研究思路,也为神经网络模型在存储和计算能力有限的边缘设备上的部署带来了新的发展空间。

相关推荐

4万多吨豪华游轮遇险 竟是因为这个原因……

(观察者网讯)4.7万吨豪华游轮搁浅,竟是因为油量太低?据观察者网此前报道,挪威游轮“维京天空”号上周六(23日)在挪威近海发生引擎故障搁浅。船上载有1300多人,其中28人受伤住院。经过数天的调...

“菜鸟黑客”必用兵器之“渗透测试篇二”

"菜鸟黑客"必用兵器之"渗透测试篇二"上篇文章主要针对伙伴们对"渗透测试"应该如何学习?"渗透测试"的基本流程?本篇文章继续上次的分享,接着介绍一下黑客们常用的渗透测试工具有哪些?以及用实验环境让大家...

科幻春晚丨《震动羽翼说“Hello”》两万年星间飞行,探测器对地球的最终告白

作者|藤井太洋译者|祝力新【编者按】2021年科幻春晚的最后一篇小说,来自大家喜爱的日本科幻作家藤井太洋。小说将视角放在一颗太空探测器上,延续了他一贯的浪漫风格。...

麦子陪你做作业(二):KEGG通路数据库的正确打开姿势

作者:麦子KEGG是通路数据库中最庞大的,涵盖基因组网络信息,主要注释基因的功能和调控关系。当我们选到了合适的候选分子,单变量研究也已做完,接着研究机制的时便可使用到它。你需要了解你的分子目前已有哪些...

知存科技王绍迪:突破存储墙瓶颈,详解存算一体架构优势

智东西(公众号:zhidxcom)编辑|韦世玮智东西6月5日消息,近日,在落幕不久的GTIC2021嵌入式AI创新峰会上,知存科技CEO王绍迪博士以《存算一体AI芯片:AIoT设备的算力新选择》...

每日新闻播报(September 14)_每日新闻播报英文

AnOscarstatuestandscoveredwithplasticduringpreparationsleadinguptothe87thAcademyAward...

香港新巴城巴开放实时到站数据 供科技界研发使用

中新网3月22日电据香港《明报》报道,香港特区政府致力推动智慧城市,鼓励公私营机构开放数据,以便科技界研发使用。香港运输署21日与新巴及城巴(两巴)公司签署谅解备忘录,两巴将于2019年第3季度,开...

5款不容错过的APP: Red Bull Alert,Flipagram,WifiMapper

本周有不少非常出色的app推出,鸵鸟电台做了一个小合集。亮相本周榜单的有WifiMapper's安卓版的app,其中包含了RedBull的一款新型闹钟,还有一款可爱的怪物主题益智游戏。一起来看看我...

Qt动画效果展示_qt显示图片

今天在这篇博文中,主要实践Qt动画,做一个实例来讲解Qt动画使用,其界面如下图所示(由于没有录制为gif动画图片,所以请各位下载查看效果):该程序使用应用程序单窗口,主窗口继承于QMainWindow...

如何从0到1设计实现一门自己的脚本语言

作者:dong...

三年级语文上册 仿写句子 需要的直接下载打印吧

描写秋天的好句好段1.秋天来了,山野变成了美丽的图画。苹果露出红红的脸庞,梨树挂起金黄的灯笼,高粱举起了燃烧的火把。大雁在天空一会儿写“人”字,一会儿写“一”字。2.花园里,菊花争奇斗艳,红的似火,粉...

C++|那些一看就很简洁、优雅、经典的小代码段

目录0等概率随机洗牌:1大小写转换2字符串复制...

二年级上册语文必考句子仿写,家长打印,孩子照着练

二年级上册语文必考句子仿写,家长打印,孩子照着练。具体如下:...

一年级语文上 句子专项练习(可打印)

...

亲自上阵!C++ 大佬深度“剧透”:C++26 将如何在代码生成上对抗 Rust?

...

取消回复欢迎 发表评论: