引入特征空间，显著降低计算量：双边局部注意力ViT安全性媲美全局注意力

发布时间：2025年07月28日 12:17

质自由空有数彼此邻近的 token 之有数的视线：

再一，将 FSLA 可选的输入送去另一个归一化层和一个 MLP 可选透过处理事件，再通过一个短路连接得到整个 bilateral local attention 可选的输入：

FSLA 的全面性是如何对特质透过聚类加载，并且在各个类内外数值自视线。最直觉的方法是采用 K-means 聚类，但 K-means 聚类不能确保分组结果大小完全一致，这使得在 GPU SDK上难于有效地发挥作用并行加快，同时也可能对自视线数值的有效性产生负面不良影响。

因此本文驳斥基本具体来说聚类，它透过 k 层聚类。在每一层，它透过基本也就是说聚类，将上一层的各个类组基本地划分为两个更小的类组。如下图上图，所有 token 都由了 token 数总量完全一致的 8 个类组，然后在每组内外数值自视线，基本的自视线实例和图形自由空有数全局视线完全一致。

假如某个类组原再有 2m 个 token，基本也就是说聚类后得到的每组的 token 数总量为 m。与 K-means 类似，基本也就是说聚类是一个迭代算法并且依靠于聚类中都心。如此表算法上图，在每次迭代对所有 token 透过分组时，再数值每个 token 到两个聚类中都心的间距比值，然后把所有 token 按间距比值的递减顺序顺序排列，再一将顺序排列列表上半部分 m 个 token 赋给第一组，后半部分 m 个 token 赋给第二组。

能够留意的是，这样透过无重叠的基本也就是说聚类可能则会引致两个处于顺序排列列表中都段位置的、特质比较类似于的 token 被分配到两个不同的类组中都，从而无法数值它们之有数的密切相关。因此在实际上数值中都，为了避免遗漏邻近特质有数的不良影响，则会完全一致一定程度的类有数重叠，也就是把顺序排列列表的最左边 m+n 个 token 赋给第一组，再一 m+n 个 token 赋给第二组。这样三组之有数就共存 2n 个重用的 token，这样的类有数重叠则会引致额外的演算，因此实际上只在具体来说聚类的再一一层透过有重叠的基本也就是说聚类。顺利透过聚类以后，在每组 token 内外按照常规加载透过自视线组态的数值即可。

值得留意的是，本文中都的所有聚类都是临时数值的，不包涵任何可学习的实例，因此不共存对聚类算法本身透过梯度载入的问题。此外，所有聚类演算都用 GPU 透过了加快，对模型的既有数值总量不良影响较大。

试验中结果

BOAT 遵循与其它 ViT 完全一致的专业训练策略。本文采用 ImageNet-1K 的专业训练集专业训练模型，输入图形采用 224×224 像素，并且没有受控数据。

基本来说，专业训练 300 个 epochs，采用 AdamW 优化器、余弦学习速率调度器和一个线性预热过程。BOAT 在多个数据集上都赢得了 SOTA 的视觉效果。比如，在 ImageNet-1K 测试集上，BOAT-CSWin-T 赢得了 83.7 的 Top-1 分类统计分析；在 ADE20K 文法重新组合测试集上，BOAT-CSWin-T 的 mIoU 达到了 50.5。

。

泰州白癜风治疗方法有什么
银川白癜风医院怎么去
西安妇科医院哪家比较好
漳州看白癜风去哪家医院比较好
武汉白癜风医院排行
尿液混浊
妇科炎症
打胎药
夏天咳嗽吃什么能快速止咳化痰
洗液

上一篇：暖心守沪 | 普陀这场“生物技术接力跑”，快速连通舱内7800名医患的爱与希望

下一篇：普通家庭必备！OPPO 65英寸电视新品紧接著开售，2199元“朋友价”忍不了