Driver-Net多摄像头融合-评估驾驶员接管准备度达95.8%准确率

前言

Euro NCAP 2026要求车辆具备无响应驾驶员干预能力——当驾驶员失去反应时,系统需执行最小风险机动(MRM)安全停车。

Leeds大学最新发表的Driver-Net框架,通过三摄像头融合评估驾驶员接管准备度,准确率高达95.8%,为L3自动驾驶和法规合规提供了重要技术参考。


一、研究背景

1.1 L3自动驾驶的接管挑战

自动驾驶等级 驾驶员责任 监控需求
L2 部分自动化 持续监控 基础DMS
L3 条件自动化 接管请求时响应 高级DMS + 就绪评估
L4 高度自动化 无需响应 OMS为主

L3的核心挑战:

  • 驾驶员可能处于”脱眼脱手”状态,从事非驾驶任务(NDRT)
  • 当系统发出接管请求(TOR)时,驾驶员反应时间差异巨大
  • 未准备好接管可能导致危险

1.2 Euro NCAP 2026要求

无响应驾驶员干预流程:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
驾驶员无响应检测

┌─────────────────────────────────────┐
│ 阶段1: 升级警告 │
│ - 视觉 + 声音 + 触觉 │
└─────────────────────────────────────┘
↓ (无响应)
┌─────────────────────────────────────┐
│ 阶段2: 增加安全辅助灵敏度 │
│ - 降低AEB/FCW触发阈值 │
│ - 增加车道保持强度 │
└─────────────────────────────────────┘
↓ (仍无响应)
┌─────────────────────────────────────┐
│ 阶段3: 最小风险机动 (MRM) │
│ - 安全停车 │
│ - 激活eCall │
└─────────────────────────────────────┘

二、Driver-Net架构

2.1 三摄像头配置

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
座舱摄像头布局:

┌─────────────────────────────────────┐
│ 挡风玻璃 │
└─────────────────────────────────────┘

┌───────────────┼───────────────┐
│ │ │
v v v
┌─────────┐ ┌─────────┐ ┌─────────┐
│ 头部摄像 │ │ 手部摄像 │ │ 身体摄像 │
(Head) │ │ (Hands) │ │ (Body)
└─────────┘ └─────────┘ └─────────┘
│ │ │
└───────────────┼───────────────┘
v
┌─────────────────────┐
Cross-Modal Fusion
└─────────────────────┘

v
┌─────────────────────┐
│ 驾驶员就绪评估 │
└─────────────────────┘
摄像头 位置 检测目标
头部摄像头 仪表台上方 头部姿态、视线方向、眼睛状态
手部摄像头 转向柱附近 手部位置、握持状态、操作动作
身体摄像头 顶棚中央 身体姿态、座椅位置、活动状态

2.2 网络架构

双路径设计:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
Driver-Net 架构:

┌─────────────────────────────────────────────────────┐
│ 输入层 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ Head Cam│ │Hand Cam │ │Body Cam │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
└───────┼────────────┼────────────┼──────────────────┘
│ │ │
v v v
┌─────────────────────────────────────────────────────┐
Context Block (空间特征)
- 3D CNN提取空间特征 │
- 多尺度特征融合 │
└─────────────────────────────────────────────────────┘
│ │ │
v v v
┌─────────────────────────────────────────────────────┐
Feature Block (时序特征)
- Temporal Conv提取时序依赖 │
- Attention机制关注关键帧 │
└─────────────────────────────────────────────────────┘
│ │ │
└────────────┼────────────┘
v
┌─────────────────────────────────────────────────────┐
Cross-Modal Fusion Strategy
- 特征级融合 │
- 注意力加权 │
- 时序对齐 │
└─────────────────────────────────────────────────────┘

v
┌─────────────────────────────────────────────────────┐
│ 就绪状态分类 │
- 准备接管 │
- 部分准备 │
- 未准备 │
└─────────────────────────────────────────────────────┘

2.3 核心创新点

创新点 说明
多视角同步 头部+手部+身体三视角同步采集
时空融合 Context Block + Feature Block 双路径
跨模态注意力 自动学习不同模态的重要性权重
实时推理 驾驶模拟器验证,满足实时性要求

三、实验结果

3.1 数据集

参数 设置
采集环境 Leeds驾驶模拟器(真车座舱)
车辆 Jaguar 真车座舱
参与者 多样化人群
场景 L3 TOR场景(道路施工、事故阻塞等)

3.2 性能指标

1
2
3
4
5
6
7
8
9
10
11
准确率对比:

┌──────────────────────┬──────────────┐
│ 方法 │ 准确率 │
├──────────────────────┼──────────────┤
│ 单摄像头(头部) │ ~78% │
│ 单摄像头(手部) │ ~72% │
│ 单摄像头(身体) │ ~65% │
│ 双摄像头融合 │ ~88% │
│ Driver-Net (三摄) │ 95.8% ✅ │
└──────────────────────┴──────────────┘

3.3 消融实验

组件 移除后准确率下降
头部摄像头 -12%
手部摄像头 -8%
身体摄像头 -5%
跨模态融合 -7%
时序建模 -10%

四、开发启示

4.1 IMS技术路线

推荐方案:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
阶段1:单摄像头基础版
├── 头部摄像头(已有)
├── 基础就绪评估
└── 准确率目标:~80%

阶段2:双摄像头增强版
├── 增加:手部摄像头
├── 手部-头部融合
└── 准确率目标:~88%

阶段3:三摄像头完整版
├── 增加:身体/顶棚摄像头
├── 全模态融合
└── 准确率目标:≥95%

4.2 成本与收益分析

方案 摄像头数 硬件成本 准确率 适用车型
基础版 1 $20-30 ~80% 入门级
增强版 2 $40-60 ~88% 主流车型
完整版 3 $60-90 ≥95% 高端/L3车型

4.3 与Euro NCAP 2026对标

Euro NCAP要求 Driver-Net支持
疲劳检测 ✅ 头部摄像头
分心检测 ✅ 头部+手部摄像头
无响应检测 ✅ 三摄像头融合
接管就绪评估 ✅ 核心功能

五、技术细节

5.1 时序建模

关键洞察:

  • 驾驶员从”未准备”到”准备接管”需要时间
  • 单帧判断不可靠,需要时序累积
  • 典型接管准备时间:2-5秒
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# 伪代码:时序决策逻辑
def assess_readiness(frames, window=30):
"""
frames: 过去30帧的多摄像头特征
返回:就绪概率
"""
# 空间特征提取
spatial_features = [ContextBlock(f) for f in frames]

# 时序特征聚合
temporal_features = FeatureBlock(spatial_features)

# 跨模态融合
fused = CrossModalFusion(temporal_features)

# 就绪概率
readiness_prob = Classifier(fused)

return readiness_prob

5.2 部署考量

挑战 解决方案
计算资源 模型量化(INT8)、剪枝
多摄像头同步 硬件触发、时间戳对齐
光照变化 NIR摄像头、HDR
隐私保护 车内处理、特征脱敏

5.3 与现有DMS集成

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
集成架构:

┌─────────────────────────────────────────────────────┐
│ 现有DMS模块 │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │疲劳检测 │ │分心检测 │ │眼动追踪 │ │
│ └────┬────┘ └────┬────┘ └────┬────┘ │
└───────┼────────────┼────────────┼──────────────────┘
└────────────┼────────────┘
v
┌─────────────────────────────────────────────────────┐
│ Driver-Net 就绪评估模块 │
│ - 多摄像头输入 │
│ - 与现有DMS特征融合 │
│ - 输出:接管就绪度评分 │
└─────────────────────────────────────────────────────┘

v
┌─────────────────────────────────────────────────────┐
│ ADAS / L3系统 │
│ - TOR触发时机决策 │
│ - MRM激活条件 │
└─────────────────────────────────────────────────────┘

六、总结

核心发现

  1. 多摄像头融合显著提升就绪评估准确率,从单摄像头的~78%提升到95.8%
  2. 头部摄像头贡献最大,手部次之,身体摄像头补充
  3. 跨模态融合和时序建模是关键

IMS开发建议

优先级 建议
P0 验证现有单摄像头方案的就绪评估能力
P1 评估增加手部摄像头的可行性
P2 研究与ADAS的TOR联动机制

商业价值

  • 法规合规:满足Euro NCAP 2026无响应驾驶员干预要求
  • L3量产:为L3自动驾驶提供关键安全冗余
  • 差异化竞争:高级就绪评估能力成为卖点

参考文献

  1. Rezaei & Azarmi (2025). Driver-Net: Multi-Camera Fusion for Assessing Driver Take-Over Readiness in Automated Vehicles. arXiv:2507.04139.
  2. Euro NCAP (2025). Assessment Protocol - Safe Driving.
  3. SAE J3016 (2021). Levels of Driving Automation.

研究日期: 2026-03-13
论文来源: arXiv:2507.04139
研究机构: University of Leeds


Driver-Net多摄像头融合-评估驾驶员接管准备度达95.8%准确率
https://dapalm.com/2026/03/13/Driver-Net多摄像头融合接管准备度评估/
作者
Mars
发布于
2026年3月13日
许可协议