前言
L3条件自动驾驶下,驾驶员可能从事非驾驶任务(NDRT),当系统发出接管请求时,分心状态会延迟响应,危及安全。
2025年9月发表的研究,使用TD2D数据集,通过多模态生理+眼动信号融合,实现了96%的分心检测准确率,并深入分析了跨受试者泛化挑战。
一、研究背景
1.1 L3自动驾驶的分心检测挑战
| 驾驶模式 |
驾驶员状态 |
检测挑战 |
| 手动驾驶 |
持续控制 |
可用驾驶性能指标(车道偏离、方向盘) |
| L2自动驾驶 |
监控系统 |
仍可检测驾驶行为变化 |
| L3自动驾驶 |
可能完全脱离 |
驾驶性能指标不可用 ⚠️ |
核心问题: L3条件下,如何检测驾驶员的认知和视觉分心?
1.2 两类检测方法
| 方法 |
优势 |
局限 |
| 图像方法 |
非接触、易部署 |
难以检测认知分心 |
| 生理方法 |
可检测认知状态 |
需佩戴传感器 |
本研究选择:多模态生理+眼动融合
二、数据集与实验设计
2.1 TD2D数据集
| 参数 |
设置 |
| 参与者 |
50名驾驶员 |
| 任务条件 |
10种分心任务 |
| 采集信号 |
ECG, PPG, EDA, 眼动追踪 |
| 同步采集 |
✅ 所有信号同步 |
| 主观评估 |
NASA-TLX工作负荷评分 |
2.2 任务重分类
基于NASA-TLX工作负荷评分,将10种任务重分类为3类:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
| 工作负荷分类:
┌─────────────────────────────────────────────────────┐ │ 低工作负荷 (Low Workload) │ │ - 休息 │ │ - 简单听觉任务 │ ├─────────────────────────────────────────────────────┤ │ 中等工作负荷 (Medium Workload) │ │ - 简单视觉任务 │ │ - 轻度认知任务 │ ├─────────────────────────────────────────────────────┤ │ 高工作负荷 (High Workload) │ │ - 复杂认知任务 │ │ - 多任务并发 │ │ - 手机操作 │ └─────────────────────────────────────────────────────┘
|
2.3 特征提取
提取25个信息特征:
| 模态 |
特征类型 |
具体特征 |
| ECG |
心率变异性 |
HR, HRV, RMSSD, SDNN |
| PPG |
血管特征 |
HRV, 脉搏波特征 |
| EDA |
皮肤电导 |
SCR, SCL, 峰值频率 |
| 眼动 |
注视/扫视 |
注视时长, 扫视幅度, 瞳孔直径 |
三、实验结果
3.1 模型对比
三种分类器对比:
1 2 3 4 5 6 7 8 9
| 分心检测准确率:
┌──────────────────────┬──────────────┬──────────────┐ │ 模型 │ 受试者内 │ 跨受试者 │ ├──────────────────────┼──────────────┼──────────────┤ │ Support Vector Machine│ 0.89 │ 0.61 │ │ Multilayer Perceptron │ 0.91 │ 0.64 │ │ Random Forest │ 0.96 ✅ │ 0.69 │ └──────────────────────┴──────────────┴──────────────┘
|
3.2 跨受试者泛化挑战
| 评估方式 |
准确率 |
说明 |
| 受试者内 |
96% |
训练和测试来自同一人 |
| 跨受试者 |
69% |
训练和测试来自不同人 ⚠️ |
问题: 个体差异导致泛化困难
3.3 时间窗口分析
| 参数 |
最优设置 |
性能影响 |
| 窗口长度 |
5-8秒 |
中等长度最优 |
| 重叠比例 |
部分重叠 |
比完全无重叠更好 |
| 关键发现 |
时间重叠比窗口长度影响更大 |
|
3.4 SHAP特征重要性分析
1 2 3 4 5 6 7 8 9 10 11 12 13
| 特征重要性排名:
┌──────────────────────┬──────────────┬──────────────┐ │ 排名 │ 特征类型 │ 贡献度 │ ├──────────────────────┼──────────────┼──────────────┤ │ 1 │ 眼动特征 │ ████████ 45 │ 2 │ EDA特征 │ ███ 15 │ 3 │ ECG HRV │ ██ 12 │ 4 │ PPG特征 │ ██ 10 │ ... │ ... │ ... │ └──────────────────────┴──────────────┴──────────────┘
结论:眼动特征是主要判别因子,EDA提供补充鲁棒性
|
四、技术架构
4.1 多模态融合框架
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46
| 融合架构:
┌─────────────────────────────────────────────────────┐ │ 数据采集层 │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌────────┐ │ │ │ ECG │ │ PPG │ │ EDA │ │ 眼动 │ │ │ └────┬────┘ └────┬────┘ └────┬────┘ └───┬────┘ │ └───────┼────────────┼────────────┼───────────┼──────┘ │ │ │ │ v v v v ┌─────────────────────────────────────────────────────┐ │ 预处理与特征提取 │ │ ┌─────────────────────────────────────────────┐ │ │ │ - 信号滤波(带通、陷波) │ │ │ │ - 伪迹去除 │ │ │ │ - 时域/频域特征提取 │ │ │ │ - 标准化 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ 特征选择 │ │ ┌─────────────────────────────────────────────┐ │ │ │ - 25个信息特征选择 │ │ │ │ - 基于互信息和相关性筛选 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ Random Forest 分类器 │ │ ┌─────────────────────────────────────────────┐ │ │ │ - 集成决策树 │ │ │ │ - 处理高维特征 │ │ │ │ - 内置特征重要性 │ │ │ └─────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ 输出层 │ │ - 低工作负荷 │ │ - 中等工作负荷 │ │ - 高工作负荷 │ └─────────────────────────────────────────────────────┘
|
4.2 时间窗口设计
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| def extract_features(signal, window_length=5, overlap=0.5): """ signal: 原始信号 window_length: 窗口长度(秒) overlap: 重叠比例 """ step = window_length * (1 - overlap) features = [] for start in range(0, len(signal) - window_length, step): window = signal[start:start + window_length] time_features = { 'mean': np.mean(window), 'std': np.std(window), 'max': np.max(window), 'min': np.min(window), } freq_features = frequency_domain_analysis(window) features.append({**time_features, **freq_features}) return features
|
五、开发启示
5.1 技术路线选择
| 方案 |
准确率 |
实用性 |
成本 |
| 纯视觉 |
85-90% |
高 |
低 |
| 生理+眼动融合 |
96% |
中 |
高 |
| 混合方案 |
90-93% |
高 |
中 |
推荐: 纯视觉作为基础,生理信号作为高端选配
5.2 Euro NCAP 2026对标
| 要求 |
本研究支持 |
| 分心检测 |
✅ 核心功能 |
| 认知分心 |
✅ 生理信号优势 |
| 疲劳检测 |
✅ ECG/EDA可检测 |
5.3 跨受试者泛化改进方向
| 挑战 |
解决方案 |
| 个体差异 |
个性化校准、迁移学习 |
| 基线差异 |
相对特征(相对于基线的变化) |
| 领域自适应 |
Domain Adaptation算法 |
六、成本与部署考量
6.1 传感器成本
| 传感器 |
成本 |
部署方式 |
| ECG |
$10-20 |
座椅嵌入 / 可穿戴 |
| PPG |
$5-10 |
方向盘 / 手环 |
| EDA |
$5-10 |
方向盘 / 手环 |
| 眼动追踪 |
$20-50 |
摄像头 |
6.2 实用性分析
| 因素 |
纯视觉 |
生理融合 |
| 用户接受度 |
高 |
中(需佩戴) |
| 安装复杂度 |
低 |
高 |
| 维护成本 |
低 |
中 |
| 检测范围 |
视觉分心为主 |
视觉+认知分心 |
七、总结
核心发现
- 多模态融合达到96%准确率,显著优于单模态方法
- 眼动特征是最重要的判别因子,EDA提供补充鲁棒性
- 跨受试者泛化仍是挑战,需个性化校准或迁移学习
IMS开发建议
| 优先级 |
建议 |
| P0 |
强化眼动追踪特征提取 |
| P1 |
研究生理信号集成的可行性 |
| P2 |
开发跨用户泛化策略 |
商业价值
- 高端车型差异化:生理信号融合提升认知分心检测
- L3自动驾驶安全:更准确的接管准备度评估
- 法规合规:满足Euro NCAP 2026认知分心要求
参考文献
- Electronics 2025. Driver Distraction Detection in Conditionally Automated Driving Using Multimodal Physiological and Ocular Signals.
- TD2D Dataset. Takeover during Distracted L2 Automated Driving.
- Euro NCAP (2025). Assessment Protocol - Safe Driving.
研究日期: 2026-03-13
论文来源: Electronics 2025, 14, 3811
数据集: TD2D