前言
视线估计(Gaze Estimation)是DMS的核心功能之一,Euro NCAP 2026要求连续眼动追踪作为5星评分必备条件。
2026年2月发表的ARGaze论文,提出了一种自回归Transformer方法,将视线估计重新定义为序列预测问题:
- 利用人眼注视的时间连续性
- 仅使用过去和当前帧(在线设置)
- 达到SOTA性能
一、研究背景
1.1 视线估计的任务分类
| 类型 |
输入 |
特点 |
应用 |
| 离线视线估计 |
完整视频序列 |
可使用未来帧 |
研究分析 |
| 在线视线估计 |
过去+当前帧 |
因果、实时 |
实时DMS |
| 第三人称视角 |
外部摄像头 |
有头部/眼睛信号 |
固定场景 |
| 第一人称视角 |
头戴摄像头 |
无显式眼信号 |
AR/辅助技术 |
ARGaze聚焦:在线第一人称视角视线估计
1.2 核心洞察
关键发现: 注视行为在目标导向活动中具有强时间连续性
1 2 3 4 5 6 7 8 9 10
| 注视连续性示意:
时间 t-3 t-2 t-1 t ↓ ↓ ↓ ↓ [A] ──→ [A] ──→ [A] ──→ [B] └─────────────────┘ 连续注视A区域 然后跳转到B区域
已知最近注视点 = 预测下一注视点的强先验
|
二、ARGaze架构
2.1 自回归建模
传统方法 vs ARGaze:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
| 传统方法(双向注意力): ┌─────────────────────────────────────────┐ │ 输入: [frame_1, ..., frame_t, ..., T] │ │ ↓ ↓ ↓ │ │ ←───── 全局注意力(违反因果) ─────→ │ └─────────────────────────────────────────┘
ARGaze(自回归): ┌─────────────────────────────────────────┐ │ 输入: [frame_t] + Gaze_Context_Window │ │ ↓ ↓ │ │ 当前视觉特征 + 历史注视点 │ │ ↓ │ │ Transformer Decoder (因果) │ │ ↓ │ │ 预测: gaze_t │ └─────────────────────────────────────────┘
|
2.2 网络结构
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
| ARGaze 架构:
┌─────────────────────────────────────────────────────┐ │ 输入层 │ │ ┌───────────────┐ ┌───────────────┐ │ │ │ 当前帧图像 │ │ 历史注视窗口 │ │ │ │ I_t │ │ G_{t-K:t-1} │ │ │ └───────┬───────┘ └───────┬───────┘ │ └──────────┼─────────────────────┼──────────────────┘ │ │ v v ┌─────────────────────────────────────────────────────┐ │ 特征提取 │ │ ┌───────────────┐ ┌───────────────┐ │ │ │ 视觉编码器 │ │ 注视嵌入 │ │ │ │ (ViT/CNN) │ │ (Position Emb)│ │ │ └───────┬───────┘ └───────┬───────┘ │ └──────────┼─────────────────────┼──────────────────┘ │ │ v v ┌─────────────────────────────────────────────────────┐ │ Transformer Decoder │ │ ┌─────────────────────────────────────────────┐ │ │ │ - 因果自注意力 │ │ │ │ - 交叉注意力(视觉-注视) │ │ │ │ - 前馈网络 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ 输出头 │ │ ┌─────────────────────────────────────────────┐ │ │ │ 注视点预测 (x, y) 或 热力图 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘
|
2.3 Gaze Context Window
关键设计:固定长度的历史注视窗口
| 参数 |
说明 |
| 窗口大小K |
使用最近K个注视点 |
| 嵌入方式 |
2D位置嵌入 |
| 更新机制 |
FIFO队列 |
1 2 3 4 5 6 7 8 9 10 11
| class GazeContextWindow: def __init__(self, size=10): self.size = size self.history = deque(maxlen=size) def update(self, gaze_t): self.history.append(gaze_t) def get_context(self): return list(self.history)
|
三、实验结果
3.1 数据集
| 数据集 |
任务 |
特点 |
| Ego4D |
第一人称视频 |
大规模、自然活动 |
| EPIC-KITCHENS |
厨房活动 |
细粒度动作 |
| GTEA |
茶饮制作 |
注视标注 |
3.2 性能对比
1 2 3 4 5 6 7 8 9 10 11 12 13
| 在线视线估计性能(Angular误差,度):
┌──────────────────────┬──────────────┬──────────────┐ │ 方法 │ Ego4D │ EPIC-KITCHENS│ ├──────────────────────┼──────────────┼──────────────┤ │ 帧独立预测 │ 23.5° │ 21.8° │ │ 双向Transformer │ 19.2°* │ 17.5°* │ │ RNN方法 │ 20.1° │ 18.9° │ │ ARGaze (K=5) │ 18.3° │ 16.2° │ │ ARGaze (K=10) │ 17.1° ✅ │ 15.4° ✅ │ └──────────────────────┴──────────────┴──────────────┘
* 注:双向方法违反因果约束,不能用于实时应用
|
3.3 消融实验
| 组件 |
移除后性能下降 |
| Gaze Context Window |
-3.2° |
| Transformer Decoder |
-2.5° |
| 视觉编码器预训练 |
-1.8° |
| 位置嵌入 |
-1.2° |
四、与DMS的关系
4.1 第一人称 vs 第三人称
| 视角 |
ARGaze适用? |
DMS场景 |
| 第一人称(头戴) |
✅ 直接适用 |
AR眼镜、研究设备 |
| 第三人称(车内) |
需适配 |
标准DMS |
DMS适配方案:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| 第三人称DMS适配:
┌─────────────────────────────────────────────────────┐ │ 标准DMS摄像头 │ │ ┌─────────────────────────────────────────────┐ │ │ │ 输出:头部姿态、眼动、视线方向 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ ARGaze时序建模层(新增) │ │ ┌─────────────────────────────────────────────┐ │ │ │ 输入:历史视线序列 [gaze_{t-K}, ..., t-1] │ │ │ │ 模型:Transformer Decoder │ │ │ │ 输出:预测视线 gaze_t_pred │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ 分心检测增强 │ │ ┌─────────────────────────────────────────────┐ │ │ │ 对比:预测视线 vs 实际视线 │ │ │ │ 异常检测:偏离预测轨迹 → 认知分心 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘
|
4.2 认知分心检测增强
ARGaze的核心价值:预测驾驶员”应该”看哪里
1 2 3 4 5 6 7 8 9 10 11 12 13
| 分心检测逻辑:
正常驾驶: 预测视线 ≈ 实际视线 → 正常
认知分心: 预测视线 ≠ 实际视线 → 异常 (眼睛在看,但注意力不在)
示例: - 预测:应看前方道路(基于历史轨迹) - 实际:盯着前方但瞳孔反应异常、眼动规律性降低 - 结论:认知分心
|
4.3 Euro NCAP 2026合规
| 要求 |
ARGaze贡献 |
| 连续眼动追踪 |
✅ 时序建模 |
| 分心检测 |
✅ 异常检测 |
| 认知分心 |
⚠️ 需与其他指标融合 |
五、实现细节
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
| class CausalTransformerDecoder(nn.Module): def __init__(self, d_model, nhead, num_layers): self.layers = nn.ModuleList([ nn.TransformerDecoderLayer(d_model, nhead) for _ in range(num_layers) ]) def forward(self, visual_features, gaze_history): causal_mask = generate_causal_mask(gaze_history.size(1)) for layer in self.layers: gaze_history = layer( gaze_history, visual_features, tgt_mask=causal_mask ) return gaze_history
|
5.2 损失函数
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| def compute_loss(pred_gaze, gt_gaze, pred_heatmap, gt_heatmap): regression_loss = F.mse_loss(pred_gaze, gt_gaze) heatmap_loss = F.kl_div(pred_heatmap, gt_heatmap) temporal_loss = F.mse_loss( pred_gaze[1:] - pred_gaze[:-1], gt_gaze[1:] - gt_gaze[:-1] ) return regression_loss + heatmap_loss + 0.1 * temporal_loss
|
六、开发启示
6.1 IMS技术路线
| 阶段 |
功能 |
技术 |
| Phase 1 |
基础视线估计 |
单帧CNN |
| Phase 2 |
时序建模 |
ARGaze适配 |
| Phase 3 |
认知分心检测 |
多模态融合 |
6.2 部署考量
| 挑战 |
解决方案 |
| 计算开销 |
轻量化Transformer(MobileBERT) |
| 延迟 |
窗口大小K=5,平衡精度与速度 |
| 内存 |
固定窗口,避免无限增长 |
6.3 研究方向
| 方向 |
说明 |
| 跨域泛化 |
不同驾驶员、不同场景 |
| 极端姿态 |
大头部旋转下的视线估计 |
| 遮挡处理 |
墨镜、口罩等遮挡场景 |
七、总结
核心创新
- 自回归建模:首次将视线估计定义为序列预测
- 因果设计:满足在线实时应用需求
- 历史先验:利用注视连续性提升预测
IMS开发建议
| 优先级 |
建议 |
| P0 |
评估现有视线估计的时序建模需求 |
| P1 |
实现Gaze Context Window机制 |
| P2 |
研究与认知分心检测的融合 |
商业价值
- 技术领先:SOTA在线视线估计
- 法规合规:满足Euro NCAP 2026连续追踪要求
- 差异化:认知分心检测能力
参考文献
- Li et al. (2026). ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation. arXiv:2602.05132.
- Euro NCAP (2025). Assessment Protocol - Safe Driving.
- Lai et al. (2024). Gaze estimation benchmark.
研究日期: 2026-03-13
论文来源: arXiv:2602.05132