前言
Euro NCAP 2026要求车辆具备无响应驾驶员干预能力——当驾驶员失去反应时,系统需执行最小风险机动(MRM)安全停车。
Leeds大学最新发表的Driver-Net框架,通过三摄像头融合评估驾驶员接管准备度,准确率高达95.8%,为L3自动驾驶和法规合规提供了重要技术参考。
一、研究背景
1.1 L3自动驾驶的接管挑战
| 自动驾驶等级 |
驾驶员责任 |
监控需求 |
| L2 部分自动化 |
持续监控 |
基础DMS |
| L3 条件自动化 |
接管请求时响应 |
高级DMS + 就绪评估 |
| L4 高度自动化 |
无需响应 |
OMS为主 |
L3的核心挑战:
- 驾驶员可能处于”脱眼脱手”状态,从事非驾驶任务(NDRT)
- 当系统发出接管请求(TOR)时,驾驶员反应时间差异巨大
- 未准备好接管可能导致危险
1.2 Euro NCAP 2026要求
无响应驾驶员干预流程:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
| 驾驶员无响应检测 ↓ ┌─────────────────────────────────────┐ │ 阶段1: 升级警告 │ │ - 视觉 + 声音 + 触觉 │ └─────────────────────────────────────┘ ↓ (无响应) ┌─────────────────────────────────────┐ │ 阶段2: 增加安全辅助灵敏度 │ │ - 降低AEB/FCW触发阈值 │ │ - 增加车道保持强度 │ └─────────────────────────────────────┘ ↓ (仍无响应) ┌─────────────────────────────────────┐ │ 阶段3: 最小风险机动 (MRM) │ │ - 安全停车 │ │ - 激活eCall │ └─────────────────────────────────────┘
|
二、Driver-Net架构
2.1 三摄像头配置
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
| 座舱摄像头布局:
┌─────────────────────────────────────┐ │ 挡风玻璃 │ └─────────────────────────────────────┘ │ ┌───────────────┼───────────────┐ │ │ │ v v v ┌─────────┐ ┌─────────┐ ┌─────────┐ │ 头部摄像 │ │ 手部摄像 │ │ 身体摄像 │ │ (Head) │ │ (Hands) │ │ (Body) │ └─────────┘ └─────────┘ └─────────┘ │ │ │ └───────────────┼───────────────┘ v ┌─────────────────────┐ │ Cross-Modal Fusion │ └─────────────────────┘ │ v ┌─────────────────────┐ │ 驾驶员就绪评估 │ └─────────────────────┘
|
| 摄像头 |
位置 |
检测目标 |
| 头部摄像头 |
仪表台上方 |
头部姿态、视线方向、眼睛状态 |
| 手部摄像头 |
转向柱附近 |
手部位置、握持状态、操作动作 |
| 身体摄像头 |
顶棚中央 |
身体姿态、座椅位置、活动状态 |
2.2 网络架构
双路径设计:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
| Driver-Net 架构:
┌─────────────────────────────────────────────────────┐ │ 输入层 │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ Head Cam│ │Hand Cam │ │Body Cam │ │ │ └────┬────┘ └────┬────┘ └────┬────┘ │ └───────┼────────────┼────────────┼──────────────────┘ │ │ │ v v v ┌─────────────────────────────────────────────────────┐ │ Context Block (空间特征) │ │ - 3D CNN提取空间特征 │ │ - 多尺度特征融合 │ └─────────────────────────────────────────────────────┘ │ │ │ v v v ┌─────────────────────────────────────────────────────┐ │ Feature Block (时序特征) │ │ - Temporal Conv提取时序依赖 │ │ - Attention机制关注关键帧 │ └─────────────────────────────────────────────────────┘ │ │ │ └────────────┼────────────┘ v ┌─────────────────────────────────────────────────────┐ │ Cross-Modal Fusion Strategy │ │ - 特征级融合 │ │ - 注意力加权 │ │ - 时序对齐 │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ 就绪状态分类 │ │ - 准备接管 │ │ - 部分准备 │ │ - 未准备 │ └─────────────────────────────────────────────────────┘
|
2.3 核心创新点
| 创新点 |
说明 |
| 多视角同步 |
头部+手部+身体三视角同步采集 |
| 时空融合 |
Context Block + Feature Block 双路径 |
| 跨模态注意力 |
自动学习不同模态的重要性权重 |
| 实时推理 |
驾驶模拟器验证,满足实时性要求 |
三、实验结果
3.1 数据集
| 参数 |
设置 |
| 采集环境 |
Leeds驾驶模拟器(真车座舱) |
| 车辆 |
Jaguar 真车座舱 |
| 参与者 |
多样化人群 |
| 场景 |
L3 TOR场景(道路施工、事故阻塞等) |
3.2 性能指标
1 2 3 4 5 6 7 8 9 10 11
| 准确率对比:
┌──────────────────────┬──────────────┐ │ 方法 │ 准确率 │ ├──────────────────────┼──────────────┤ │ 单摄像头(头部) │ ~78 │ 单摄像头(手部) │ ~72 │ 单摄像头(身体) │ ~65 │ 双摄像头融合 │ ~88 │ Driver-Net (三摄) │ 95.8 └──────────────────────┴──────────────┘
|
3.3 消融实验
| 组件 |
移除后准确率下降 |
| 头部摄像头 |
-12% |
| 手部摄像头 |
-8% |
| 身体摄像头 |
-5% |
| 跨模态融合 |
-7% |
| 时序建模 |
-10% |
四、开发启示
4.1 IMS技术路线
推荐方案:
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| 阶段1:单摄像头基础版 ├── 头部摄像头(已有) ├── 基础就绪评估 └── 准确率目标:~80
阶段2:双摄像头增强版 ├── 增加:手部摄像头 ├── 手部-头部融合 └── 准确率目标:~88
阶段3:三摄像头完整版 ├── 增加:身体/顶棚摄像头 ├── 全模态融合 └── 准确率目标:≥95
|
4.2 成本与收益分析
| 方案 |
摄像头数 |
硬件成本 |
准确率 |
适用车型 |
| 基础版 |
1 |
$20-30 |
~80% |
入门级 |
| 增强版 |
2 |
$40-60 |
~88% |
主流车型 |
| 完整版 |
3 |
$60-90 |
≥95% |
高端/L3车型 |
4.3 与Euro NCAP 2026对标
| Euro NCAP要求 |
Driver-Net支持 |
| 疲劳检测 |
✅ 头部摄像头 |
| 分心检测 |
✅ 头部+手部摄像头 |
| 无响应检测 |
✅ 三摄像头融合 |
| 接管就绪评估 |
✅ 核心功能 |
五、技术细节
5.1 时序建模
关键洞察:
- 驾驶员从”未准备”到”准备接管”需要时间
- 单帧判断不可靠,需要时序累积
- 典型接管准备时间:2-5秒
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
| def assess_readiness(frames, window=30): """ frames: 过去30帧的多摄像头特征 返回:就绪概率 """ spatial_features = [ContextBlock(f) for f in frames] temporal_features = FeatureBlock(spatial_features) fused = CrossModalFusion(temporal_features) readiness_prob = Classifier(fused) return readiness_prob
|
5.2 部署考量
| 挑战 |
解决方案 |
| 计算资源 |
模型量化(INT8)、剪枝 |
| 多摄像头同步 |
硬件触发、时间戳对齐 |
| 光照变化 |
NIR摄像头、HDR |
| 隐私保护 |
车内处理、特征脱敏 |
5.3 与现有DMS集成
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
| 集成架构:
┌─────────────────────────────────────────────────────┐ │ 现有DMS模块 │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │疲劳检测 │ │分心检测 │ │眼动追踪 │ │ │ └────┬────┘ └────┬────┘ └────┬────┘ │ └───────┼────────────┼────────────┼──────────────────┘ └────────────┼────────────┘ v ┌─────────────────────────────────────────────────────┐ │ Driver-Net 就绪评估模块 │ │ - 多摄像头输入 │ │ - 与现有DMS特征融合 │ │ - 输出:接管就绪度评分 │ └─────────────────────────────────────────────────────┘ │ v ┌─────────────────────────────────────────────────────┐ │ ADAS / L3系统 │ │ - TOR触发时机决策 │ │ - MRM激活条件 │ └─────────────────────────────────────────────────────┘
|
六、总结
核心发现
- 多摄像头融合显著提升就绪评估准确率,从单摄像头的~78%提升到95.8%
- 头部摄像头贡献最大,手部次之,身体摄像头补充
- 跨模态融合和时序建模是关键
IMS开发建议
| 优先级 |
建议 |
| P0 |
验证现有单摄像头方案的就绪评估能力 |
| P1 |
评估增加手部摄像头的可行性 |
| P2 |
研究与ADAS的TOR联动机制 |
商业价值
- 法规合规:满足Euro NCAP 2026无响应驾驶员干预要求
- L3量产:为L3自动驾驶提供关键安全冗余
- 差异化竞争:高级就绪评估能力成为卖点
参考文献
- Rezaei & Azarmi (2025). Driver-Net: Multi-Camera Fusion for Assessing Driver Take-Over Readiness in Automated Vehicles. arXiv:2507.04139.
- Euro NCAP (2025). Assessment Protocol - Safe Driving.
- SAE J3016 (2021). Levels of Driving Automation.
研究日期: 2026-03-13
论文来源: arXiv:2507.04139
研究机构: University of Leeds