抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

Dekel'Blog

奔赴山海,保持热爱

image-20250221113237422

1. 输入处理

输入

  • 模板图像 ,通常是初始帧或前一帧,尺寸较小,聚焦于目标物体。
  • 搜索图像 当前帧中需要搜索的区域,尺寸较大,覆盖目标可能的移动范围。

分块

  • 分为 大小的块,数量分别为:

线性投影

  • 每个小图像块通过线性层映射为维度 的嵌入向量。

位置编码

  • 使用可学习的位置编码,保留空间信息。

2. 激活模块 (AM)

2.1 基本定义

  • 考虑第 ,tokens 的总数记为 ,嵌入向量的维度记为

  • 层输出的 tokens 记为

  • 层 Transformer 块输出的标记切片表示为:

    其中 是标准单位向量。

  • 线性层标记为

2.2 激活模块公式

激活模块(Activation Module, AM)表示为:

其中:

  • 表示第 层 Transformer 块的激活概率。
  • 为 sigmoid 激活函数:

2.3 激活规则

  • 为激活概率阈值。
    • ,则第 层 Transformer 块被激活。
    • 否则,跳过第 层,直接将第 层的输出 tokens 传递给第 层。

2.4 强制激活与稀疏性

  • 强制激活

    • 若所有 个 Transformer 块都未被激活,则无法计算模板图像和搜索图像之间的相关性。
    • 因此,设定前 层始终保持激活状态,以确保基础信息的传递。
  • 区块稀疏性损失

    • 若所有输入经过 AM 都使 Transformer 模块激活,会导致效率降低。

    • 引入区块稀疏性损失,鼓励在平均情况下停用更多的 Transformer 块:

      其中 为常数,与 共同控制模块的稀疏性。


3. 通过互信息 (MI) 最大化表征视图不变性 (VIR)

3.1 互信息 (MI) 定义

给定两个随机变量 ,它们之间的 MI 为:

其中:

  • 是联合概率分布。
  • 是边缘概率分布。
  • 是库尔贝克-莱布勒散度。

3.2 基于 JSD 的 MI 估计

由于现实中无法直接估计 MI,采用基于詹森-香农散度 (JSD) 的 Deep InfoMax MI 估计器:

其中:

  • 是一个神经网络,将输入空间映射到实数空间。
  • 是 softplus 函数。

3.3 视图不变性损失

  • 真实目标定位 token 表示为:

    其中

  • 给定目标在搜索图像中的真实定位 ,通过线性插值获得对应的 token:

  • 视图不变性损失函数为:


4. 基于知识最大化的多教师知识蒸馏 (MD)

image-20250222204040696

4.1 教师模型与学生模型

  • 教师模型:使用 3 种已有的跟踪模型(AVTrack-DeiT、AVTrack-ViT 和 AVTrack-EVA),提供多样化且高质量的教师模型。
  • 学生模型:选择自相似结构,使用较小的 ViT 主干网(一半 ViT 块),具有模块化和可扩展特性。

4.2 教师输出处理

  • 平均所有教师的预测结果,得到聚合特征表示:

  • 使用温度 对模型输出进行软化处理:

    其中

4.3 互信息最大化

  • 目标函数为:

  • 在蒸馏训练中,使用 和教师模型的总损失函数的加权和来训练学生模型。


5. 预测头和训练目标

5.1 拐角检测头

  • 对搜索图像的特征进行处理,直接估计目标物体的边界框。

  • 生成 3 个输出:

    1. 目标分类分数 ,表示每个位置是目标中心的概率。
    2. 局部偏移 ,用于微调目标位置的偏移量。
    3. 归一化边界框大小 ,表示边界框的宽度和高度。
  • 根据分类分数的最大值确定目标的粗略位置:

  • 结合局部偏移和边界框大小,最终确定目标的边界框:

5.2 总损失函数

  • 总损失函数为加权焦点损失:

    其中:

  • 在蒸馏阶段,总损失为:

    其中

核心

  1. 动态激活模块:通过稀疏性损失实现按需计算,效率提升约30%。
  2. 视图不变性学习:基于MI最大化,增强模型对视角变化的鲁棒性。
  3. 多教师蒸馏:轻量化学生模型性能接近教师,计算量减少50%。

评论

看完了不如留下点什么吧