驾驶员视线估计:从几何方法到深度学习的演进

前言

驾驶员视线估计是判断分心状态的关键。从早期的几何模型到现代的深度学习方法,视线估计精度不断提升,但车载实时性要求仍是挑战。


一、视线估计方法演进

1.1 方法分类

方法类型 原理 精度 实时性
几何模型 眼球参数计算
外观模型 图像特征映射
混合模型 几何 + 外观
深度学习 端到端学习

1.2 演进时间线

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2000-2010: 几何模型主导
├── 瞳孔-角膜反射 (PCCR)
├── 3D 眼球模型
└── 校准依赖高

2010-2018: 外观模型兴起
├── 头部姿态 + 眼动联合
├── 特征点检测
└── 部分自适应校准

2018-至今: 深度学习突破
├── CNN 特征提取
├── 注意力机制
├── Transformer
└── 端到端学习

二、几何模型方法

2.1 PCCR 原理

1
2
3
4
5
6
7
光源 → 角膜反射(普尔金耶像)

计算角膜曲率中心

瞳孔中心 → 视线方向

屏幕交点(注视点)

2.2 优缺点

优点 缺点
计算简单 需要校准
实时性高 对光照敏感
物理可解释 头动影响大

2.3 适用场景

场景 适用性
固定头部(实验室) ✅ 高精度
车载(头部自由) ⚠️ 需配合头部姿态

三、深度学习方法

3.1 网络架构演进

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
2018: CNN 直接回归
├── 输入: 面部/眼部图像
├── 网络: VGG/ResNet
└── 输出: 视线向量

2020: 多任务学习
├── 输入: 面部 + 眼部
├── 网络: 共享 backbone
├── 输出: 视线 + 头部姿态
└── 性能: 更鲁棒

2022: 注意力机制
├── 输入: 面部图像
├── 网络: Transformer + CNN
├── 特点: 自注意力特征提取
└── 性能: SOTA

2024: 端到端 3D
├── 输入: 单目图像
├── 网络: 3D 重建 + 视线估计
├── 特点: 无需校准
└── 性能: 高精度

3.2 注意力机制应用

注意力类型 应用方式
空间注意力 聚焦眼部区域
通道注意力 特征选择
自注意力 全局特征关联
交叉注意力 多模态融合

3.3 代表性网络

网络 年份 特点
GazeNet 2018 首个端到端
Full-Face 2019 全脸特征
Gaze360 2019 360° 视线
ETH-XGaze 2020 大规模数据集
GAzEFormer 2023 Transformer 架构

四、车规级优化

4.1 模型轻量化

方法 效果 精度损失
MobileNet Backbone -70% 计算 2-3°
模型剪枝 -40% 参数 1-2°
INT8 量化 -75% 内存
知识蒸馏 -60% 参数 <1°

4.2 实时性指标

硬件平台 模型大小 延迟 帧率
NVIDIA Jetson 10MB 15ms 60fps
Qualcomm SA8155 8MB 20ms 50fps
TI TDA4 6MB 25ms 40fps

4.3 车规要求

要求 标准
精度误差 <5°
响应时间 <50ms
工作温度 -40°C ~ 85°C
功耗 <5W
ASIL 等级 ASIL-B

五、Euro NCAP 分心检测

5.1 视线区域定义

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
┌─────────────────────────────────────────────────────┐
│ 前方视野 │
│ │
│ ┌─────────────────────────────────────┐ │
│ │ 道路区域 (正常) │ │
│ │ │ │
│ │ ↓ 正常视线 │ │
│ │ │ │
│ └─────────────────────────────────────┘ │
│ │
│ 左侧后视镜 │ │ 右侧后视镜 │
│ (允许) │ │ (允许) │
│ │ │ │
│ 仪表台 │ │ 中控屏 │
│ (允许) │ │ (分心) │
│ │ │ │
│ ↓ │ ↓ │
│ 手机使用区域 │ 长时间偏离 │
│ (分心) │ (分心) │
└─────────────────────────────────────────────────────┘

5.2 分心判定规则

视线状态 持续时间 判定
正常道路 任意 正常
后视镜 <2秒 正常
后视镜 >2秒 轻度分心
中控屏 <2秒 正常
中控屏 2-4秒 轻度分心
中控屏 >4秒 中度分心
手机/腿部 任何 高度分心

六、IMS 开发建议

6.1 技术选型

需求 推荐方案
高精度 Transformer + 注意力机制
实时性 MobileNet + 轻量化
鲁棒性 多任务学习

6.2 数据集选择

数据集 规模 特点
ETH-XGaze 100万+ 大规模、多姿态
MPIIFaceGaze 21万 高精度标注
Gaze360 23万 360° 视线
自建数据 需补充 车内场景

6.3 开发流程

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1. 预训练模型选择
└── ETH-XGaze 预训练权重

2. 车内场景微调
└── 收集车内数据
└── 标注视线方向
└── 微调训练

3. 模型轻量化
└── 剪枝/量化/蒸馏

4. 部署测试
└── 目标硬件验证

5. Euro NCAP 验证
└── 官方测试场景

总结

驾驶员视线估计的关键要点:

  1. 深度学习主导:端到端学习,精度最高
  2. 注意力机制:聚焦关键特征,提升鲁棒性
  3. 轻量化部署:剪枝/量化/蒸馏,满足实时性
  4. Euro NCAP 要求:<5° 误差,<50ms 延迟
  5. 分心判定:视线偏离 >2秒 触发告警

IMS 开发应选择 Transformer + MobileNet 的轻量化架构,并针对车内场景微调。


参考来源:

  • ETH-XGaze 数据集论文
  • GAzEFormer 架构论文
  • Euro NCAP 分心检测协议
  • Nature 人机交互研究

驾驶员视线估计:从几何方法到深度学习的演进
https://dapalm.com/2026/03/13/2026-03-13-驾驶员视线估计:从几何方法到深度学习/
作者
Mars
发布于
2026年3月13日
许可协议