- 主页
- 分类
- 标签
- 归档
- 友链
- 关于
- 日间/夜间模式

Dekel'Blog

奔赴山海，保持热爱

毕业设计-自适应和互信息最大化无人机实实时追踪蒸馏模型

Dekel

实时追踪

字数：1k 字

时长：3 分钟

发布于：2025年2月20日

次浏览

1. 输入处理

输入：

模板图像，通常是初始帧或前一帧，尺寸较小，聚焦于目标物体。
搜索图像，当前帧中需要搜索的区域，尺寸较大，覆盖目标可能的移动范围。

分块：

和分为大小的块，数量分别为：

线性投影：

每个小图像块通过线性层映射为维度的嵌入向量。

位置编码：

使用可学习的位置编码，保留空间信息。

2. 激活模块 (AM)

2.1 基本定义

考虑第层，tokens 的总数记为，嵌入向量的维度记为。
第层输出的 tokens 记为。
第层 Transformer 块输出的标记切片表示为：

其中是标准单位向量。
线性层标记为。

2.2 激活模块公式

激活模块（Activation Module, AM）表示为：

其中：

表示第层 Transformer 块的激活概率。
为 sigmoid 激活函数：。

2.3 激活规则

设为激活概率阈值。
- 若，则第层 Transformer 块被激活。
- 否则，跳过第层，直接将第层的输出 tokens 传递给第层。

2.4 强制激活与稀疏性

强制激活：
- 若所有个 Transformer 块都未被激活，则无法计算模板图像和搜索图像之间的相关性。
- 因此，设定前层始终保持激活状态，以确保基础信息的传递。
区块稀疏性损失 ：
- 若所有输入经过 AM 都使 Transformer 模块激活，会导致效率降低。
- 引入区块稀疏性损失，鼓励在平均情况下停用更多的 Transformer 块：
  
  其中为常数，与共同控制模块的稀疏性。

3. 通过互信息 (MI) 最大化表征视图不变性 (VIR)

3.1 互信息 (MI) 定义

给定两个随机变量和，它们之间的 MI 为：

其中：

是联合概率分布。
是边缘概率分布。
是库尔贝克-莱布勒散度。

3.2 基于 JSD 的 MI 估计

由于现实中无法直接估计 MI，采用基于詹森-香农散度 (JSD) 的 Deep InfoMax MI 估计器：

其中：

是一个神经网络，将输入空间映射到实数空间。
是 softplus 函数。

3.3 视图不变性损失

真实目标定位 token 表示为：

其中。
给定目标在搜索图像中的真实定位，通过线性插值获得对应的 token：
视图不变性损失函数为：

4. 基于知识最大化的多教师知识蒸馏 (MD)

4.1 教师模型与学生模型

教师模型：使用 3 种已有的跟踪模型（AVTrack-DeiT、AVTrack-ViT 和 AVTrack-EVA），提供多样化且高质量的教师模型。
学生模型：选择自相似结构，使用较小的 ViT 主干网（一半 ViT 块），具有模块化和可扩展特性。

4.2 教师输出处理

平均所有教师的预测结果，得到聚合特征表示：
使用温度对模型输出进行软化处理：

其中。

4.3 互信息最大化

目标函数为：
在蒸馏训练中，使用和教师模型的总损失函数的加权和来训练学生模型。

5. 预测头和训练目标

5.1 拐角检测头

对搜索图像的特征进行处理，直接估计目标物体的边界框。
生成 3 个输出：
1. 目标分类分数，表示每个位置是目标中心的概率。
2. 局部偏移，用于微调目标位置的偏移量。
3. 归一化边界框大小，表示边界框的宽度和高度。
根据分类分数的最大值确定目标的粗略位置：
结合局部偏移和边界框大小，最终确定目标的边界框：

5.2 总损失函数

总损失函数为加权焦点损失：

其中：
- ，。
- ，。
在蒸馏阶段，总损失为：

其中。

核心

动态激活模块：通过稀疏性损失实现按需计算，效率提升约30%。
视图不变性学习：基于MI最大化，增强模型对视角变化的鲁棒性。
多教师蒸馏：轻量化学生模型性能接近教师，计算量减少50%。

更新于：2025年2月26日

字数：1k 字

时长：3 分钟

大学

交并比(IoU)和广义交并比(GIoU)

交并比IOU(Intersection over Union)： IoU = 交集面积 / 并集面积值范围在 [0,1] 之间：0 表示完全没有重叠，1 表示完全重合作为损失函...

🥸反向传播中梯度消失和梯度爆炸的原因🥸

在深度学习中，梯度消失和梯度爆炸是训练深层神经网络时常见的挑战。要真正理解这些问题，必须深入理解反向传播的机制，尤其是梯度是如何通过链式法则逐层传播的。本文通过手推反向传播的数学推导，帮助理...

评论

看完了不如留下点什么吧

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
分类
标签
主页

暗黑模式
打印页面
阅读模式