HighlightMe: 从人类中心视频中检测亮点

ICCVOct, 2021

HighlightMe: 从人类中心视频中检测亮点

HighlightMe: Detecting Highlights from Human-Centric Videos

Uttaran Bhattacharya, Gang Wu, Stefano Petrangeli, Viswanathan Swaminathan, Dinesh Manocha

TL;DR文章介绍了一种基于图形表示多个可观测到的人类中心模式（例如姿势和面部表情）的视频的方法，使用带有空间 - 时间图卷积的自动编码器网络来检测基于这些模式的人类活动和互动，并将这些模式的基于活动和互动的潜在结构表示映射到基于帧的高亮度分数，用于计算哪些帧需要突出显示并拼接相邻帧以产生摘录。该方法无需用户提供的偏好或特定数据集的微调，可提高与这些数据集中现有方法相比的平均精度。

Abstract

We present a domain- and user-preference-agnostic approach to detect highlightable excerpts from human-centric videos. Our method works on the graph-based representation of multiple observable human-centric modal

video human-centric autoencoder highlight latent representation

发现论文，激发创造

通过学习用户历史记录实现自适应视频精彩片段检测

本论文提出了一种基于神经网络的视频摘要方法，通过整合用户历史信息和 T-AIN 层的用户自适应信号来实现更加准确和个性化的视频精华提取。

Jul, 2020

QVHighlights: 通过自然语言查询识别视频中的时刻和亮点

本篇研究提出了基于问题的视频亮点（QVHIGHLIGHTS）数据集，用于开发和评估系统以检测有关时刻以及突出亮点，同时使用 Moment-DETR，一个转换器编码器 - 解码器模型，将时刻检索视为直接预测问题，并且在利用 ASR 注释和进行弱监督预训练时表现出优异的性能。

Jul, 2021

基于强健循环自编码器的视频精华无监督提取

该研究提出了一种基于循环自编码器的无监督学习方法，用于从社交媒体的用户编辑视频中提取高光时刻，并通过一种收缩指数损失函数训练了这个自编码器，以使其具有噪声容忍度和更好地建模时间结构。

Oct, 2015

学会从视频时长中检测亮点：简约之美

本文提出了一种基于视频长度的无监督高光检测方法，利用用户生成视频中的短片段为高光片段，通过对数据的训练，将该方法应用于 Instagram 的标注视频上，最终在两个难以处理的公共视频高亮检测基准测试中大幅改进了无监督高亮检测的技术水平。

Mar, 2019

PHD-GIFs: 自定义亮点检测用于自动 GIF 制作

通过全球排名模型，我们使用用户历史创建了大规模的数据集，为用户兴趣打分实现了个性化模型，大大提高了通用高光侦测器的回归率并比单一用户不可知的基线更加精确。

Apr, 2018

基于人类手动演示视频的自动交互和活动识别技术及其在异常检测中的应用

本文提出一种基于场景图，利用图像序列提取关键交互特征并编码动作模式和上下文的方法，同时引入基于事件的自动视频分割和聚类，成功地实现了识别手 - 物体和物体 - 物体交互，并匹配不同受试者执行的同一活动。

Apr, 2023

使用密集视频字幕和人物对象交互检测可疑活动的 SAVCHOI 系统

提出了一种利用人 - 物交互模型来检测和总结监控视频中可疑活动的新方法，使用基于双模变换器中的视觉特征的方法修改了现有方法，并将其与现有的最先进的算法进行了比较，发现该方法在密集字幕表现方面优于其他方法，并最终使用遗传算法找出不同 NMS 阈值条件下的最佳性能。

Jul, 2022

通过自然语言查询进行联合时刻检索和高亮检测

本计划提出了一种新方法，使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测，以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻，并在多个数据集上进行评估，如 YouTube 亮点和 TVSum。

May, 2023

学习像素级别的视频精华检测

本文提出了一种基于像素级别特征的视频亮点检测方法，通过学习每个像素在视频中的所属类别，既考虑了时间序列特征，也考虑了空间特征；并且通过使用 3D 卷积神经网络和视觉显著性模型，构建了一个编码 - 解码网络，在三个公共基准测试集上均取得了最先进的效果。

Apr, 2022

重访视频显著性：一个大规模基准和一个新模型

该研究提出了一种基于注意力机制增强的 CNN-LSTM 网络架构，可用于动态视频场景下显著性学习，在 DHF1K 数据集上取得了优于其他竞争者的性能表现。

Jan, 2018