Gaze-LLE:Foundation Model驱动的零样本视线估计
引言:Foundation Model改写视线估计
传统视线估计需要:
- 大规模标注数据(ETH-XGaze: 110万张图)
- 特定域训练(车内环境)
- 耗时调参(学习率、数据增强)
Foundation Model的颠覆:
- 零样本能力:无需标注数据
- 跨域泛化:无需重新训练
- 即插即用:冻结预训练模型
Gaze-LLE(CVPR 2025 Highlight)是首个将Foundation Model应用于视线估计的工作,实现了零样本跨域泛化。
一、DINOv2:视觉Foundation Model
1.1 DINOv2核心思想
自监督学习:
- 无需标签,从海量图像中学习通用特征
- 通过掩码图像建模(MIM)和对比学习
- 学到的特征具有语义性和空间性
DINOv2 vs DINO v1:
| 特性 | DINO v1 | DINOv2 |
|---|---|---|
| 训练数据 | 1.4B图像 | 14.2B图像 |
| 模型规模 | ViT-B/16 | ViT-g/14 |
| 特征质量 | 中等 | SOTA |
| 零样本能力 | 弱 | 强 |
1.2 DINOv2特征可视化
1 | |
1.3 为什么DINOv2适合视线估计?
| 特性 | 说明 |
|---|---|
| 空间感知 | Patch tokens保留空间位置信息 |
| 语义理解 | 自动识别眼睛、鼻子、嘴巴等关键部位 |
| 跨域鲁棒 | 在各种光照、姿态下表现稳定 |
| 零样本泛化 | 无需微调即可在新场景工作 |
二、Gaze-LLE架构
2.1 整体设计
1 | |
2.2 核心代码
1 | |
2.3 参数量分析
| 组件 | 参数量 | 是否训练 |
|---|---|---|
| DINOv2 Encoder | 86M | ❌ 冻结 |
| Feature Projection | 0.2M | ✅ 训练 |
| Head Position Embedding | 0.13M | ✅ 训练 |
| Lightweight Decoder | 0.53M | ✅ 训练 |
| Heatmap Head | 0.26M | ✅ 训练 |
| 可训练总计 | 1.1M | - |
对比:传统方法需要训练10-80M参数。
三、零样本跨域实验
3.1 实验设置
训练数据:仅使用GazeFollow数据集(训练集)
测试数据:
- GazeFollow(同域)
- VideoAttentionTarget(跨域视频)
- ChildPlay(跨域儿童)
3.2 跨域性能对比
| 方法 | GazeFollow | VideoAttentionTarget | ChildPlay |
|---|---|---|---|
| Traditional | 0.89 | 0.71 | 0.62 |
| GazeTR-Hybrid | 0.91 | 0.76 | 0.68 |
| Gaze-LLE | 0.92 | 0.83 | 0.78 |
结论:Gaze-LLE在跨域场景下显著优于传统方法。
3.3 Foundation Model对比
| Foundation Model | GazeFollow MAE |
|---|---|
| CLIP | 0.87 |
| MAE | 0.89 |
| DINO v1 | 0.90 |
| DINOv2 | 0.92 |
结论:DINOv2特征最适合视线估计。
四、对车载DMS的启示
4.1 零样本泛化的重要性
传统方法的困境:
- 训练数据采集成本高(需要车内环境)
- 标注精度要求高(角度误差<3°)
- 不同车型需要重新训练
Gaze-LLE的突破:
- 无需车内数据:DINOv2已学到通用特征
- 自动适应:零样本迁移到车内场景
- 快速部署:只需训练1.1M参数
4.2 与传统方法对比
| 维度 | 传统方法 | Gaze-LLE |
|---|---|---|
| 训练数据需求 | 100万+ | 几千张 |
| 训练时间 | 数天 | 数小时 |
| 跨域性能 | 差 | 优 |
| 部署复杂度 | 高 | 低 |
| 精度 | 高(同域) | 中等 |
4.3 实施建议
场景一:快速原型验证
1 | |
场景二:跨车型部署
1 | |
场景三:高精度需求
1 | |
五、局限性分析
5.1 当前局限
| 局限 | 原因 | 解决方案 |
|---|---|---|
| 精度不如传统方法 | 冻结特征非最优 | 微调部分DINOv2层 |
| 推理速度慢 | DINOv2模型大 | 蒸馏到小模型 |
| 头部位置依赖 | 需要准确检测 | 集成鲁棒检测器 |
5.2 改进方向
1 | |
六、实验复现
6.1 环境配置
1 | |
6.2 零样本推理
1 | |
七、总结
7.1 核心贡献
| 贡献 | 说明 |
|---|---|
| Foundation Model应用 | 首次将DINOv2用于视线估计 |
| 零样本泛化 | 无需目标域数据即可工作 |
| 轻量级训练 | 仅需训练1.1M参数 |
| 跨域SOTA | 在多个跨域基准上最优 |
7.2 对IMS开发的启示
- 快速验证:使用Gaze-LLE快速验证DMS可行性
- 数据增强:利用DINOv2特征增强传统方法
- 跨域迁移:新车型的快速适应
- 持续学习:在线微调Foundation Model
参考文献
- Ryan, F., et al. “Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders.” CVPR, 2025.
- Oquab, M., et al. “DINOv2: Learning Robust Visual Features without Supervision.” 2024.
- Caron, M., et al. “Emerging Properties in Self-Supervised Vision Transformers.” ICCV, 2021.
本文是IMS视线估计算法系列文章之一,上一篇:GazeTR详解
Gaze-LLE:Foundation Model驱动的零样本视线估计
https://dapalm.com/2026/03/13/2026-03-13-Gaze-LLE-Foundation-Model零样本视线估计/