ARGaze自回归视线估计-在线驾驶员注意力预测新范式

前言

视线估计（Gaze Estimation）是DMS的核心功能之一，Euro NCAP 2026要求连续眼动追踪作为5星评分必备条件。

2026年2月发表的ARGaze论文，提出了一种自回归Transformer方法，将视线估计重新定义为序列预测问题：

利用人眼注视的时间连续性
仅使用过去和当前帧（在线设置）
达到SOTA性能

一、研究背景

1.1 视线估计的任务分类

类型	输入	特点	应用
离线视线估计	完整视频序列	可使用未来帧	研究分析
在线视线估计	过去+当前帧	因果、实时	实时DMS
第三人称视角	外部摄像头	有头部/眼睛信号	固定场景
第一人称视角	头戴摄像头	无显式眼信号	AR/辅助技术

ARGaze聚焦：在线第一人称视角视线估计

1.2 核心洞察

关键发现： 注视行为在目标导向活动中具有强时间连续性

注视连续性示意：

时间 t-3    t-2    t-1     t
     ↓      ↓      ↓      ↓
   [A] ──→ [A] ──→ [A] ──→ [B]
    └─────────────────┘
         连续注视A区域
                    然后跳转到B区域

已知最近注视点 = 预测下一注视点的强先验

二、ARGaze架构

2.1 自回归建模

传统方法 vs ARGaze：

传统方法（双向注意力）：
┌─────────────────────────────────────────┐
│  输入: [frame_1, ..., frame_t, ..., T]  │
│         ↓         ↓         ↓          │
│  ←───── 全局注意力（违反因果） ─────→    │
└─────────────────────────────────────────┘

ARGaze（自回归）：
┌─────────────────────────────────────────┐
│  输入: [frame_t] + Gaze_Context_Window  │
│         ↓           ↓                   │
│  当前视觉特征 + 历史注视点              │
│         ↓                               │
│  Transformer Decoder (因果)             │
│         ↓                               │
│  预测: gaze_t                           │
└─────────────────────────────────────────┘

2.2 网络结构

ARGaze 架构：

┌─────────────────────────────────────────────────────┐
│                    输入层                           │
│  ┌───────────────┐     ┌───────────────┐          │
│  │ 当前帧图像     │     │ 历史注视窗口   │          │
│  │ I_t           │     │ G_{t-K:t-1}   │          │
│  └───────┬───────┘     └───────┬───────┘          │
└──────────┼─────────────────────┼──────────────────┘
           │                     │
           v                     v
┌─────────────────────────────────────────────────────┐
│                 特征提取                            │
│  ┌───────────────┐     ┌───────────────┐          │
│  │ 视觉编码器     │     │ 注视嵌入      │          │
│  │ (ViT/CNN)     │     │ (Position Emb)│          │
│  └───────┬───────┘     └───────┬───────┘          │
└──────────┼─────────────────────┼──────────────────┘
           │                     │
           v                     v
┌─────────────────────────────────────────────────────┐
│           Transformer Decoder                      │
│  ┌─────────────────────────────────────────────┐   │
│  │  - 因果自注意力                              │   │
│  │  - 交叉注意力（视觉-注视）                    │   │
│  │  - 前馈网络                                  │   │
│  └─────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘
                         │
                         v
┌─────────────────────────────────────────────────────┐
│                 输出头                             │
│  ┌─────────────────────────────────────────────┐   │
│  │  注视点预测 (x, y) 或 热力图                 │   │
│  └─────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘

2.3 Gaze Context Window

关键设计：固定长度的历史注视窗口

参数	说明
窗口大小K	使用最近K个注视点
嵌入方式	2D位置嵌入
更新机制	FIFO队列

# 伪代码：Gaze Context Window
class GazeContextWindow:
    def __init__(self, size=10):
        self.size = size
        self.history = deque(maxlen=size)
    
    def update(self, gaze_t):
        self.history.append(gaze_t)
    
    def get_context(self):
        return list(self.history)  # [gaze_{t-K}, ..., gaze_{t-1}]

三、实验结果

3.1 数据集

数据集	任务	特点
Ego4D	第一人称视频	大规模、自然活动
EPIC-KITCHENS	厨房活动	细粒度动作
GTEA	茶饮制作	注视标注

3.2 性能对比

在线视线估计性能（Angular误差，度）：

┌──────────────────────┬──────────────┬──────────────┐
│ 方法                 │ Ego4D        │ EPIC-KITCHENS│
├──────────────────────┼──────────────┼──────────────┤
│ 帧独立预测           │ 23.5°        │ 21.8°        │
│ 双向Transformer      │ 19.2°*       │ 17.5°*       │
│ RNN方法              │ 20.1°        │ 18.9°        │
│ ARGaze (K=5)         │ 18.3°        │ 16.2°        │
│ ARGaze (K=10)        │ 17.1° ✅     │ 15.4° ✅     │
└──────────────────────┴──────────────┴──────────────┘

* 注：双向方法违反因果约束，不能用于实时应用

3.3 消融实验

组件	移除后性能下降
Gaze Context Window	-3.2°
Transformer Decoder	-2.5°
视觉编码器预训练	-1.8°
位置嵌入	-1.2°

四、与DMS的关系

4.1 第一人称 vs 第三人称

视角	ARGaze适用？	DMS场景
第一人称（头戴）	✅ 直接适用	AR眼镜、研究设备
第三人称（车内）	需适配	标准DMS

DMS适配方案：

第三人称DMS适配：

┌─────────────────────────────────────────────────────┐
│             标准DMS摄像头                           │
│  ┌─────────────────────────────────────────────┐   │
│  │  输出：头部姿态、眼动、视线方向              │   │
│  └─────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘
                         │
                         v
┌─────────────────────────────────────────────────────┐
│          ARGaze时序建模层（新增）                   │
│  ┌─────────────────────────────────────────────┐   │
│  │  输入：历史视线序列 [gaze_{t-K}, ..., t-1]   │   │
│  │  模型：Transformer Decoder                  │   │
│  │  输出：预测视线 gaze_t_pred                 │   │
│  └─────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘
                         │
                         v
┌─────────────────────────────────────────────────────┐
│             分心检测增强                           │
│  ┌─────────────────────────────────────────────┐   │
│  │  对比：预测视线 vs 实际视线                  │   │
│  │  异常检测：偏离预测轨迹 → 认知分心           │   │
│  └─────────────────────────────────────────────┘   │
└─────────────────────────────────────────────────────┘

4.2 认知分心检测增强

ARGaze的核心价值：预测驾驶员”应该”看哪里

分心检测逻辑：

正常驾驶：
预测视线 ≈ 实际视线 → 正常

认知分心：
预测视线 ≠ 实际视线 → 异常
（眼睛在看，但注意力不在）

示例：
- 预测：应看前方道路（基于历史轨迹）
- 实际：盯着前方但瞳孔反应异常、眼动规律性降低
- 结论：认知分心

4.3 Euro NCAP 2026合规

要求	ARGaze贡献
连续眼动追踪	✅ 时序建模
分心检测	✅ 异常检测
认知分心	⚠️ 需与其他指标融合

五、实现细节

5.1 因果Transformer

# 伪代码：因果注意力
class CausalTransformerDecoder(nn.Module):
    def __init__(self, d_model, nhead, num_layers):
        self.layers = nn.ModuleList([
            nn.TransformerDecoderLayer(d_model, nhead)
            for _ in range(num_layers)
        ])
    
    def forward(self, visual_features, gaze_history):
        # 因果掩码
        causal_mask = generate_causal_mask(gaze_history.size(1))
        
        # 自注意力（仅看历史）
        for layer in self.layers:
            gaze_history = layer(
                gaze_history, 
                visual_features,
                tgt_mask=causal_mask
            )
        
        return gaze_history

5.2 损失函数

# 伪代码：多任务损失
def compute_loss(pred_gaze, gt_gaze, pred_heatmap, gt_heatmap):
    # 坐标回归损失
    regression_loss = F.mse_loss(pred_gaze, gt_gaze)
    
    # 热力图损失
    heatmap_loss = F.kl_div(pred_heatmap, gt_heatmap)
    
    # 时间连续性损失
    temporal_loss = F.mse_loss(
        pred_gaze[1:] - pred_gaze[:-1],
        gt_gaze[1:] - gt_gaze[:-1]
    )
    
    return regression_loss + heatmap_loss + 0.1 * temporal_loss

六、开发启示

6.1 IMS技术路线

阶段	功能	技术
Phase 1	基础视线估计	单帧CNN
Phase 2	时序建模	ARGaze适配
Phase 3	认知分心检测	多模态融合

6.2 部署考量

挑战	解决方案
计算开销	轻量化Transformer（MobileBERT）
延迟	窗口大小K=5，平衡精度与速度
内存	固定窗口，避免无限增长

6.3 研究方向

方向	说明
跨域泛化	不同驾驶员、不同场景
极端姿态	大头部旋转下的视线估计
遮挡处理	墨镜、口罩等遮挡场景

七、总结

核心创新

自回归建模：首次将视线估计定义为序列预测
因果设计：满足在线实时应用需求
历史先验：利用注视连续性提升预测

IMS开发建议

优先级	建议
P0	评估现有视线估计的时序建模需求
P1	实现Gaze Context Window机制
P2	研究与认知分心检测的融合

商业价值

技术领先：SOTA在线视线估计
法规合规：满足Euro NCAP 2026连续追踪要求
差异化：认知分心检测能力

参考文献

Li et al. (2026). ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation. arXiv:2602.05132.
Euro NCAP (2025). Assessment Protocol - Safe Driving.
Lai et al. (2024). Gaze estimation benchmark.

研究日期： 2026-03-13
论文来源： arXiv:2602.05132

论文解析 > 视线估计

#Euro NCAP #Transformer #视线估计 #自回归 #驾驶员注意力

ARGaze自回归视线估计-在线驾驶员注意力预测新范式

https://dapalm.com/2026/03/13/ARGaze自回归视线估计-在线驾驶员注意力预测/

作者

Mars

发布于

2026年3月13日

许可协议

Transformer疲劳检测SOTA：ViT达99.15%准确率上一篇

ARGaze-自回归Transformer实现在线视线估计SOTA 下一篇