前言
驾驶员视线估计是判断分心状态的关键。从早期的几何模型到现代的深度学习方法,视线估计精度不断提升,但车载实时性要求仍是挑战。
一、视线估计方法演进
1.1 方法分类
| 方法类型 |
原理 |
精度 |
实时性 |
| 几何模型 |
眼球参数计算 |
低 |
高 |
| 外观模型 |
图像特征映射 |
中 |
中 |
| 混合模型 |
几何 + 外观 |
高 |
中 |
| 深度学习 |
端到端学习 |
高 |
低 |
1.2 演进时间线
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
| 2000-2010: 几何模型主导 ├── 瞳孔-角膜反射 (PCCR) ├── 3D 眼球模型 └── 校准依赖高
2010-2018: 外观模型兴起 ├── 头部姿态 + 眼动联合 ├── 特征点检测 └── 部分自适应校准
2018-至今: 深度学习突破 ├── CNN 特征提取 ├── 注意力机制 ├── Transformer └── 端到端学习
|
二、几何模型方法
2.1 PCCR 原理
1 2 3 4 5 6 7
| 光源 → 角膜反射(普尔金耶像) ↓ 计算角膜曲率中心 ↓ 瞳孔中心 → 视线方向 ↓ 屏幕交点(注视点)
|
2.2 优缺点
| 优点 |
缺点 |
| 计算简单 |
需要校准 |
| 实时性高 |
对光照敏感 |
| 物理可解释 |
头动影响大 |
2.3 适用场景
| 场景 |
适用性 |
| 固定头部(实验室) |
✅ 高精度 |
| 车载(头部自由) |
⚠️ 需配合头部姿态 |
三、深度学习方法
3.1 网络架构演进
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
| 2018: CNN 直接回归 ├── 输入: 面部/眼部图像 ├── 网络: VGG/ResNet └── 输出: 视线向量
2020: 多任务学习 ├── 输入: 面部 + 眼部 ├── 网络: 共享 backbone ├── 输出: 视线 + 头部姿态 └── 性能: 更鲁棒
2022: 注意力机制 ├── 输入: 面部图像 ├── 网络: Transformer + CNN ├── 特点: 自注意力特征提取 └── 性能: SOTA
2024: 端到端 3D ├── 输入: 单目图像 ├── 网络: 3D 重建 + 视线估计 ├── 特点: 无需校准 └── 性能: 高精度
|
3.2 注意力机制应用
| 注意力类型 |
应用方式 |
| 空间注意力 |
聚焦眼部区域 |
| 通道注意力 |
特征选择 |
| 自注意力 |
全局特征关联 |
| 交叉注意力 |
多模态融合 |
3.3 代表性网络
| 网络 |
年份 |
特点 |
| GazeNet |
2018 |
首个端到端 |
| Full-Face |
2019 |
全脸特征 |
| Gaze360 |
2019 |
360° 视线 |
| ETH-XGaze |
2020 |
大规模数据集 |
| GAzEFormer |
2023 |
Transformer 架构 |
四、车规级优化
4.1 模型轻量化
| 方法 |
效果 |
精度损失 |
| MobileNet Backbone |
-70% 计算 |
2-3° |
| 模型剪枝 |
-40% 参数 |
1-2° |
| INT8 量化 |
-75% 内存 |
1° |
| 知识蒸馏 |
-60% 参数 |
<1° |
4.2 实时性指标
| 硬件平台 |
模型大小 |
延迟 |
帧率 |
| NVIDIA Jetson |
10MB |
15ms |
60fps |
| Qualcomm SA8155 |
8MB |
20ms |
50fps |
| TI TDA4 |
6MB |
25ms |
40fps |
4.3 车规要求
| 要求 |
标准 |
| 精度误差 |
<5° |
| 响应时间 |
<50ms |
| 工作温度 |
-40°C ~ 85°C |
| 功耗 |
<5W |
| ASIL 等级 |
ASIL-B |
五、Euro NCAP 分心检测
5.1 视线区域定义
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
| ┌─────────────────────────────────────────────────────┐ │ 前方视野 │ │ │ │ ┌─────────────────────────────────────┐ │ │ │ 道路区域 (正常) │ │ │ │ │ │ │ │ ↓ 正常视线 │ │ │ │ │ │ │ └─────────────────────────────────────┘ │ │ │ │ 左侧后视镜 │ │ 右侧后视镜 │ │ (允许) │ │ (允许) │ │ │ │ │ │ 仪表台 │ │ 中控屏 │ │ (允许) │ │ (分心) │ │ │ │ │ │ ↓ │ ↓ │ │ 手机使用区域 │ 长时间偏离 │ │ (分心) │ (分心) │ └─────────────────────────────────────────────────────┘
|
5.2 分心判定规则
| 视线状态 |
持续时间 |
判定 |
| 正常道路 |
任意 |
正常 |
| 后视镜 |
<2秒 |
正常 |
| 后视镜 |
>2秒 |
轻度分心 |
| 中控屏 |
<2秒 |
正常 |
| 中控屏 |
2-4秒 |
轻度分心 |
| 中控屏 |
>4秒 |
中度分心 |
| 手机/腿部 |
任何 |
高度分心 |
六、IMS 开发建议
6.1 技术选型
| 需求 |
推荐方案 |
| 高精度 |
Transformer + 注意力机制 |
| 实时性 |
MobileNet + 轻量化 |
| 鲁棒性 |
多任务学习 |
6.2 数据集选择
| 数据集 |
规模 |
特点 |
| ETH-XGaze |
100万+ |
大规模、多姿态 |
| MPIIFaceGaze |
21万 |
高精度标注 |
| Gaze360 |
23万 |
360° 视线 |
| 自建数据 |
需补充 |
车内场景 |
6.3 开发流程
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| 1. 预训练模型选择 └── ETH-XGaze 预训练权重 ↓ 2. 车内场景微调 └── 收集车内数据 └── 标注视线方向 └── 微调训练 ↓ 3. 模型轻量化 └── 剪枝/量化/蒸馏 ↓ 4. 部署测试 └── 目标硬件验证 ↓ 5. Euro NCAP 验证 └── 官方测试场景
|
总结
驾驶员视线估计的关键要点:
- 深度学习主导:端到端学习,精度最高
- 注意力机制:聚焦关键特征,提升鲁棒性
- 轻量化部署:剪枝/量化/蒸馏,满足实时性
- Euro NCAP 要求:<5° 误差,<50ms 延迟
- 分心判定:视线偏离 >2秒 触发告警
IMS 开发应选择 Transformer + MobileNet 的轻量化架构,并针对车内场景微调。
参考来源:
- ETH-XGaze 数据集论文
- GAzEFormer 架构论文
- Euro NCAP 分心检测协议
- Nature 人机交互研究