驾驶员视线估计：从几何方法到深度学习的演进

前言

驾驶员视线估计是判断分心状态的关键。从早期的几何模型到现代的深度学习方法，视线估计精度不断提升，但车载实时性要求仍是挑战。

一、视线估计方法演进

1.1 方法分类

方法类型	原理	精度	实时性
几何模型	眼球参数计算	低	高
外观模型	图像特征映射	中	中
混合模型	几何 + 外观	高	中
深度学习	端到端学习	高	低

1.2 演进时间线

2000-2010: 几何模型主导
├── 瞳孔-角膜反射 (PCCR)
├── 3D 眼球模型
└── 校准依赖高

2010-2018: 外观模型兴起
├── 头部姿态 + 眼动联合
├── 特征点检测
└── 部分自适应校准

2018-至今: 深度学习突破
├── CNN 特征提取
├── 注意力机制
├── Transformer
└── 端到端学习

二、几何模型方法

2.1 PCCR 原理

光源 → 角膜反射（普尔金耶像）
            ↓
        计算角膜曲率中心
            ↓
        瞳孔中心 → 视线方向
            ↓
        屏幕交点（注视点）

2.2 优缺点

优点	缺点
计算简单	需要校准
实时性高	对光照敏感
物理可解释	头动影响大

2.3 适用场景

场景	适用性
固定头部（实验室）	✅ 高精度
车载（头部自由）	⚠️ 需配合头部姿态

三、深度学习方法

3.1 网络架构演进

2018: CNN 直接回归
├── 输入: 面部/眼部图像
├── 网络: VGG/ResNet
└── 输出: 视线向量

2020: 多任务学习
├── 输入: 面部 + 眼部
├── 网络: 共享 backbone
├── 输出: 视线 + 头部姿态
└── 性能: 更鲁棒

2022: 注意力机制
├── 输入: 面部图像
├── 网络: Transformer + CNN
├── 特点: 自注意力特征提取
└── 性能: SOTA

2024: 端到端 3D
├── 输入: 单目图像
├── 网络: 3D 重建 + 视线估计
├── 特点: 无需校准
└── 性能: 高精度

3.2 注意力机制应用

注意力类型	应用方式
空间注意力	聚焦眼部区域
通道注意力	特征选择
自注意力	全局特征关联
交叉注意力	多模态融合

3.3 代表性网络

网络	年份	特点
GazeNet	2018	首个端到端
Full-Face	2019	全脸特征
Gaze360	2019	360° 视线
ETH-XGaze	2020	大规模数据集
GAzEFormer	2023	Transformer 架构

四、车规级优化

4.1 模型轻量化

方法	效果	精度损失
MobileNet Backbone	-70% 计算	2-3°
模型剪枝	-40% 参数	1-2°
INT8 量化	-75% 内存	1°
知识蒸馏	-60% 参数	<1°

4.2 实时性指标

硬件平台	模型大小	延迟	帧率
NVIDIA Jetson	10MB	15ms	60fps
Qualcomm SA8155	8MB	20ms	50fps
TI TDA4	6MB	25ms	40fps

4.3 车规要求

要求	标准
精度误差	<5°
响应时间	<50ms
工作温度	-40°C ~ 85°C
功耗	<5W
ASIL 等级	ASIL-B

五、Euro NCAP 分心检测

5.1 视线区域定义

┌─────────────────────────────────────────────────────┐
│                   前方视野                          │
│                                                     │
│      ┌─────────────────────────────────────┐       │
│      │        道路区域 (正常)              │       │
│      │                                     │       │
│      │         ↓ 正常视线                  │       │
│      │                                     │       │
│      └─────────────────────────────────────┘       │
│                                                     │
│  左侧后视镜  │        │      右侧后视镜            │
│   (允许)    │        │       (允许)              │
│             │        │                           │
│      仪表台  │        │      中控屏               │
│      (允许)  │        │      (分心)               │
│             │        │                           │
│             ↓        │            ↓               │
│        手机使用区域  │      长时间偏离            │
│         (分心)       │       (分心)              │
└─────────────────────────────────────────────────────┘

5.2 分心判定规则

视线状态	持续时间	判定
正常道路	任意	正常
后视镜	<2秒	正常
后视镜	>2秒	轻度分心
中控屏	<2秒	正常
中控屏	2-4秒	轻度分心
中控屏	>4秒	中度分心
手机/腿部	任何	高度分心

六、IMS 开发建议

6.1 技术选型

需求	推荐方案
高精度	Transformer + 注意力机制
实时性	MobileNet + 轻量化
鲁棒性	多任务学习

6.2 数据集选择

数据集	规模	特点
ETH-XGaze	100万+	大规模、多姿态
MPIIFaceGaze	21万	高精度标注
Gaze360	23万	360° 视线
自建数据	需补充	车内场景

6.3 开发流程

1. 预训练模型选择
   └── ETH-XGaze 预训练权重
        ↓
2. 车内场景微调
   └── 收集车内数据
   └── 标注视线方向
   └── 微调训练
        ↓
3. 模型轻量化
   └── 剪枝/量化/蒸馏
        ↓
4. 部署测试
   └── 目标硬件验证
        ↓
5. Euro NCAP 验证
   └── 官方测试场景

总结

驾驶员视线估计的关键要点：

深度学习主导：端到端学习，精度最高
注意力机制：聚焦关键特征，提升鲁棒性
轻量化部署：剪枝/量化/蒸馏，满足实时性
Euro NCAP 要求：<5° 误差，<50ms 延迟
分心判定：视线偏离 >2秒触发告警

IMS 开发应选择 Transformer + MobileNet 的轻量化架构，并针对车内场景微调。

参考来源：

ETH-XGaze 数据集论文
GAzEFormer 架构论文
Euro NCAP 分心检测协议
Nature 人机交互研究

算法研究 > DMS

#DMS #眼动追踪 #深度学习 #视线估计 #注意力机制

驾驶员视线估计：从几何方法到深度学习的演进

https://dapalm.com/2026/03/13/2026-03-13-驾驶员视线估计：从几何方法到深度学习/

作者

Mars

发布于

2026年3月13日

许可协议

墨镜场景视线估计：穿透黑暗的技术方案上一篇

MediaPipe 系列 16：后处理 Calculator——解析模型输出完整指南下一篇