ARGaze-自回归Transformer实现在线视线估计SOTA

前言

视线估计（Gaze Estimation）是驾驶员监控系统的核心技术之一。2026年2月发布的ARGaze框架，创新性地将自回归Transformer应用于在线视线估计，在多个基准测试中取得SOTA性能。

一、问题定义

1.1 自我中心视线估计

与传统视线估计的区别：

类型	视角	输入	挑战
第三人称	外部摄像头	头部+眼睛图像	需要明确头部/眼动信号
自我中心	可穿戴摄像头	第一人称视频	缺乏明确信号，依赖间接线索

1.2 在线约束

核心要求：只能使用当前帧和过去帧预测视线，不能使用未来帧。

1 2	`传统方法：Bidirectional Attention（违规） ARGaze： Autoregressive Decoding（合规）`

二、核心创新

2.1 视线的时序连续性

关键观察：在目标导向活动中，视线具有强时序连续性——知道一个人最近在看哪里，为预测下一个位置提供了强有力的先验。

1
2
3

时刻 t-2  时刻 t-1  时刻 t
   ↓         ↓         ↓
[注视A] → [注视A] → [预测：仍在A附近？]

2.2 自回归解码架构

┌─────────────────────────────────────────┐
│            ARGaze 架构                   │
├─────────────────────────────────────────┤
│                                         │
│   当前视觉特征 ────┐                     │
│                    ↓                     │
│              Transformer ────→ 预测视线  │
│                    ↑                     │
│   视线上下文窗口 ──┘                     │
│   (最近N个注视点)                        │
│                                         │
└─────────────────────────────────────────┘

两大输入：

当前视觉特征：当前帧的视觉编码
视线上下文窗口：固定长度的近期视线目标估计

2.3 因果性保证

方法	因果性	流式推理
Bidirectional Attention	❌ 违反	❌ 不支持
RNN/LSTM	✅ 满足	✅ 支持
ARGaze	✅ 满足	✅ 有界资源

优势：与RNN不同，ARGaze的上下文窗口长度固定，计算资源有界。

三、实验结果

3.1 基准测试

在多个自我中心视觉基准上取得在线评估SOTA：

基准	任务	ARGaze性能
Ego4D	视线目标估计	SOTA
EPIC-KITCHENS	注意力预测	SOTA
Gaze360	3D视线估计	SOTA

3.2 消融实验

组件	贡献
自回归建模	⭐ 关键
有界视线历史	⭐ 关键
视觉特征编码	基础

关键发现：自回归建模+有界视线历史对鲁棒预测至关重要。

四、DMS应用启示

4.1 从自我中心到第三人称

虽然ARGaze针对自我中心视觉设计，但其自回归思想可迁移：

1 2	`自我中心：手-物体交互 + 显著场景内容 → 视线第三人称：眼睛图像 + 头部姿态 + 近期视线 → 视线`

4.2 时序建模策略

策略	适用场景	复杂度
单帧分析	静态场景	低
滑动窗口	短时依赖	中
自回归	长时依赖	中高

建议：对于驾驶员视线估计，结合自回归+滑动窗口可获得最佳效果。

4.3 部署考量

# 伪代码：ARGaze在DMS中的应用
class DMSGazeEstimator:
    def __init__(self):
        self.gaze_history = deque(maxlen=N)  # 固定长度历史
        self.transformer = ARGazeTransformer()
    
    def estimate(self, frame):
        visual_features = self.encode(frame)
        gaze_context = self.get_context()
        gaze = self.transformer(visual_features, gaze_context)
        self.gaze_history.append(gaze)
        return gaze

五、技术细节

5.1 视觉编码器

选项：

CNN backbone（ResNet/EfficientNet）
Vision Transformer（ViT）
混合架构

5.2 Transformer解码器

架构特点：

Multi-head Self-Attention
Cross-Attention（视觉-视线）
Causal Masking（因果掩码）

5.3 训练策略

策略	说明
Teacher Forcing	训练时使用真实历史
Scheduled Sampling	逐步引入预测历史
Autoregressive Inference	推理时使用预测历史

六、与现有DMS集成

6.1 传统方法 vs ARGaze

方法	输入	时序建模	准确率
几何方法	眼睛特征	无	中等
CNN单帧	图像	无	中等
CNN+LSTM	图像序列	隐式	较高
ARGaze	图像+视线历史	显式自回归	高

6.2 集成架构

┌─────────────────────────────────────────┐
│           DMS集成方案                    │
├─────────────────────────────────────────┤
│                                         │
│  IR摄像头 → 面部检测 → 眼睛裁剪          │
│                ↓                        │
│         Visual Encoder                  │
│                ↓                        │
│         ARGaze Decoder ← 视线历史       │
│                ↓                        │
│           视线估计                      │
│                ↓                        │
│      分心检测 / 注意力分析              │
│                                         │
└─────────────────────────────────────────┘

七、总结

关键贡献

自回归范式：将视线估计重构为序列预测问题
时序连续性：利用视线的历史依赖提升预测
在线合规：满足因果性约束，支持流式推理

IMS开发建议

优先级	功能	技术方案
P0	基础视线估计	CNN单帧
P1	时序平滑	滑动窗口平均
P2	自回归预测	ARGaze架构

论文信息：

标题：ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation
作者：Jia Li et al.
发布：arXiv:2602.05132, February 2026
开源：代码和预训练模型将发布

发布日期：2026-03-13

论文解析 > 视线估计

#Transformer #视线估计 #自回归模型 #AR/VR #驾驶员监控

ARGaze-自回归Transformer实现在线视线估计SOTA

https://dapalm.com/2026/03/13/2026-03-13-ARGaze-Autoregressive-Gaze-Estimation/

作者

Mars

发布于

2026年3月13日

许可协议

ARGaze自回归视线估计-在线驾驶员注意力预测新范式上一篇

认知分心检测突破：耳-EEG与多模态融合的前沿进展下一篇