BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-visual cues
搜索结果 - 5
观看、聆听和识别:基于字符的音频视觉字幕
通过自动化、音频视觉的方法,本研究提出了一种生成具有精确语音时间戳和角色标识的对话全文本的字幕的方法,无需面部检测或追踪,旨在提高现代流媒体服务中大量视频的可访问性。
PDF
5 months ago
基于活跃稀疏对话的音视频体感导航改进
提出了一个交谈式的视听代理机器人 CAVEN,该机器人能够使用多模态强化学习来帮助人 / 预测正确的下一个动作并提出问题,并在语音搜索过程中与人 / 专家互动,尤其在定位新的声源时性能更优。
PDF
a year ago
CVPR
Chat2Map:多自我对话中高效的场景映射
利用多个自我视角的、来自多方的对话视频,结合深度强化学习的方法,高效地构建出未知 3D 环境的地图,达到了出色的性价比,优于以往最先进的方法。
PDF
a year ago
跨文本、音频和视频的政治 Deepfakes 人类检测
研究表明,人们对于真实和伪造的政治演讲的辨别能力更多地依赖于音频和视觉线索,而并非演讲内容本身。然而,反思性推理能力会调节参与者对视觉线索的考虑程度,反应出低反思性推理能力与过度依赖演讲内容的趋势。
PDF
2 years ago
ICCV
Pano-AVQA: 360° 视频上基于感知的音视问题回答
本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑,收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标,使用多个基于 Transfo
→
PDF
3 years ago
Prev
Next