ARGaze-自回归Transformer实现在线视线估计SOTA

前言

视线估计(Gaze Estimation)是驾驶员监控系统的核心技术之一。2026年2月发布的ARGaze框架,创新性地将自回归Transformer应用于在线视线估计,在多个基准测试中取得SOTA性能。

一、问题定义

1.1 自我中心视线估计

与传统视线估计的区别

类型 视角 输入 挑战
第三人称 外部摄像头 头部+眼睛图像 需要明确头部/眼动信号
自我中心 可穿戴摄像头 第一人称视频 缺乏明确信号,依赖间接线索

1.2 在线约束

核心要求:只能使用当前帧和过去帧预测视线,不能使用未来帧。

1
2
传统方法:Bidirectional Attention(违规)
ARGaze: Autoregressive Decoding(合规)

二、核心创新

2.1 视线的时序连续性

关键观察:在目标导向活动中,视线具有强时序连续性——知道一个人最近在看哪里,为预测下一个位置提供了强有力的先验。

1
2
3
时刻 t-2  时刻 t-1  时刻 t
↓ ↓ ↓
[注视A][注视A][预测:仍在A附近?]

2.2 自回归解码架构

1
2
3
4
5
6
7
8
9
10
11
12
┌─────────────────────────────────────────┐
│ ARGaze 架构 │
├─────────────────────────────────────────┤
│ │
│ 当前视觉特征 ────┐ │
│ ↓ │
│ Transformer ────→ 预测视线 │
│ ↑ │
│ 视线上下文窗口 ──┘ │
│ (最近N个注视点) │
│ │
└─────────────────────────────────────────┘

两大输入

  1. 当前视觉特征:当前帧的视觉编码
  2. 视线上下文窗口:固定长度的近期视线目标估计

2.3 因果性保证

方法 因果性 流式推理
Bidirectional Attention ❌ 违反 ❌ 不支持
RNN/LSTM ✅ 满足 ✅ 支持
ARGaze ✅ 满足 ✅ 有界资源

优势:与RNN不同,ARGaze的上下文窗口长度固定,计算资源有界。


三、实验结果

3.1 基准测试

在多个自我中心视觉基准上取得在线评估SOTA

基准 任务 ARGaze性能
Ego4D 视线目标估计 SOTA
EPIC-KITCHENS 注意力预测 SOTA
Gaze360 3D视线估计 SOTA

3.2 消融实验

组件 贡献
自回归建模 ⭐ 关键
有界视线历史 ⭐ 关键
视觉特征编码 基础

关键发现:自回归建模+有界视线历史对鲁棒预测至关重要。


四、DMS应用启示

4.1 从自我中心到第三人称

虽然ARGaze针对自我中心视觉设计,但其自回归思想可迁移:

1
2
自我中心:手-物体交互 + 显著场景内容 → 视线
第三人称:眼睛图像 + 头部姿态 + 近期视线 → 视线

4.2 时序建模策略

策略 适用场景 复杂度
单帧分析 静态场景
滑动窗口 短时依赖
自回归 长时依赖 中高

建议:对于驾驶员视线估计,结合自回归+滑动窗口可获得最佳效果。

4.3 部署考量

1
2
3
4
5
6
7
8
9
10
11
12
# 伪代码:ARGaze在DMS中的应用
class DMSGazeEstimator:
def __init__(self):
self.gaze_history = deque(maxlen=N) # 固定长度历史
self.transformer = ARGazeTransformer()

def estimate(self, frame):
visual_features = self.encode(frame)
gaze_context = self.get_context()
gaze = self.transformer(visual_features, gaze_context)
self.gaze_history.append(gaze)
return gaze

五、技术细节

5.1 视觉编码器

选项

  • CNN backbone(ResNet/EfficientNet)
  • Vision Transformer(ViT)
  • 混合架构

5.2 Transformer解码器

架构特点

  • Multi-head Self-Attention
  • Cross-Attention(视觉-视线)
  • Causal Masking(因果掩码)

5.3 训练策略

策略 说明
Teacher Forcing 训练时使用真实历史
Scheduled Sampling 逐步引入预测历史
Autoregressive Inference 推理时使用预测历史

六、与现有DMS集成

6.1 传统方法 vs ARGaze

方法 输入 时序建模 准确率
几何方法 眼睛特征 中等
CNN单帧 图像 中等
CNN+LSTM 图像序列 隐式 较高
ARGaze 图像+视线历史 显式自回归

6.2 集成架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
┌─────────────────────────────────────────┐
│ DMS集成方案 │
├─────────────────────────────────────────┤
│ │
│ IR摄像头 → 面部检测 → 眼睛裁剪 │
│ ↓ │
│ Visual Encoder │
│ ↓ │
│ ARGaze Decoder ← 视线历史 │
│ ↓ │
│ 视线估计 │
│ ↓ │
│ 分心检测 / 注意力分析 │
│ │
└─────────────────────────────────────────┘

七、总结

关键贡献

  1. 自回归范式:将视线估计重构为序列预测问题
  2. 时序连续性:利用视线的历史依赖提升预测
  3. 在线合规:满足因果性约束,支持流式推理

IMS开发建议

优先级 功能 技术方案
P0 基础视线估计 CNN单帧
P1 时序平滑 滑动窗口平均
P2 自回归预测 ARGaze架构

论文信息

  • 标题:ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation
  • 作者:Jia Li et al.
  • 发布:arXiv:2602.05132, February 2026
  • 开源:代码和预训练模型将发布

发布日期:2026-03-13


ARGaze-自回归Transformer实现在线视线估计SOTA
https://dapalm.com/2026/03/13/2026-03-13-ARGaze-Autoregressive-Gaze-Estimation/
作者
Mars
发布于
2026年3月13日
许可协议