通过眼罩驱动的信息瓶颈学习无监督的凝视表示

Jun, 2024

通过眼罩驱动的信息瓶颈学习无监督的凝视表示

Learning Unsupervised Gaze Representation via Eye Mask Driven Information Bottleneck

Yangzhou Jiang, Yinxin Lin, Yaoming Wang, Teng Li, Bilian Ke...

TL;DR本研究提出了一种新的无监督 / 自监督凝视预训练框架，通过协同特征对比和挤压模块，强制全脸分支学习一个低维度凝视嵌入，无需凝视注释，并采用交替注视 / 不注视眼睛的屏蔽训练方案，进一步提升学习到的表示，并取得了优于无监督最新技术的性能。

Abstract

Appearance-based supervised methods with full-face image input have made tremendous advances in recent gaze estimation tasks. However, intensive human annotation requirement inhibits current methods from achievin

gaze estimation unsupervised pre-training full-face collaborative feature contrast gaze benchmarks

发现论文，激发创造

非监督式注视点估计的表征学习

该研究提出了一种不需要注释的低维注视表示学习方法，在少于 100 个标注样本的情况下，实现了有竞争力的 few-shot 注视估计结果，并且可以应用于不同的实验数据集和注视网络预训练等方向。

Nov, 2019

半监督对比回归用于眼球注视估计

通过使用半监督对比学习框架，本文提出了一种新的对比损失范式，从而实现了基于注视方向的估计，该框架在使用少量带有标签的注视数据集时，可以找到泛化解决方案，即使对于未见过的人脸图像也能有良好的性能表现，与其他用于注视估计的最先进对比学习技术相比，我们的对比回归框架表现良好。

Aug, 2023

通过眼部区域分割和自监督多流学习进行凝视估计

本文介绍了一种新颖的多流网络，学习了强健的眼部表示形式以进行凝视估计，并使用模拟器创建了合成数据集来进行眼部区域分割，并进行自监督对比学习来为真实世界的眼部图像预训练编码器，最终通过多流框架从真实世界中提取显著特征以进行凝视估计，在两种不同的评估设置下展示了方法的性能，在 EYEDIAP 数据集上超越了所有已有的基准，并进行了额外实验以验证自监督网络对于不同数量的标记数据的鲁棒性。

Dec, 2021

基于 Gaze 无监督主题特定对比学习条件的研究

利用外观为基础的凝视估计具有很大潜力，通过使用单个通用摄像头作为输入设备，但是在很大程度上取决于大规模且经过良好注释的凝视数据集的可用性，这种数据集是稀缺且昂贵的。为了解决这个挑战，我们提出了一种基于对比学习的框架 ConGaze，该框架利用未标记的面部图像以无监督的方式跨主体学习通用的凝视感知表示。我们的实验证明 ConGaze 在三个公共凝视估计数据集上胜过现有的无监督学习解决方案 6.7％至 22.5％；并且在跨数据集评估中相对于基于监督学习的模型，取得了 15.1％至 24.6％的改进。

Sep, 2023

掩码图像建模作为一种跨眼动自监督学习的框架

智能系统通过自我监督学习中的生成模型将复杂的感知输入转化为结构化编码，以获取与任务相关的信息，如物体类别和视觉表征。

Apr, 2024

面部表情全貌外观定位注视估计

提出了一种全称人脸输入的外观识别方法，使用卷积神经网络对面部图像进行编码，应用于 2D 和 3D 注视估计中实现了重大的性能提升，对于极端头部姿势尤其明显。

Nov, 2016

通过新视角合成和特征分离来进行领域自适应全脸注视估计

本研究提出了一个训练数据合成和注视估计模型的有效训练流程，用于无监督域自适应，包括使用单幅图像 3D 重建来扩展源域中头部姿势的范围，提出了一个自编码器网络来分离与注视相关的特征，并引入背景增强一致性损失来利用合成源域的特点，在多个目标域上进一步提高了性能。

May, 2023

学习在非受限环境下寻找眼部关键点以进行远程凝视估计

本文提出了一种基于学习的方法来进行眼部标志点的定位，采用该方法能够在未受控制的真实环境下较之传统方法更具优势，在个性化视线估计场景中性能优越。

May, 2018

数据高效的事件相机预训练通过解耦蒙版建模

我们提出了一种新的数据高效的基于体素的自监督学习方法，克服了以往方法的局限性，该方法通过预训练克服了通过将事件序列转换为 2D 图像以利用预训练图像模型，或直接使用成对图像数据进行知识蒸馏以增强事件流学习的方法所带来的对时间信息的牺牲。我们的自监督学习方法不依赖于成对的 RGB 图像，且能够在多个尺度上同时探索空间和时间线索，展现出卓越的泛化性能，在各种任务中显著改善参数更少、计算成本更低。

Mar, 2024

睁大眼睛：通过检测不可预测注视实现自心视角视频中的无监督错误检测

本研究提出了一种无监督的方法，通过分析用户视线信号来检测机载视频中的错误，提升智能眼镜中的用户辅助功能，并通过分析异常视线模式预测眼睛视线轨迹以识别错误，该方法在 EPIC-Tent 数据集上验证了其在一类监督和无监督技术上的优越性。

Jun, 2024