BriefGPT.xyz
Ask
alpha
关键词
audio-visual pretraining
搜索结果 - 2
听触:面向丰富接触操控的音频 - 视觉预训练
通过使用接触式麦克风作为替代触觉传感器,本文介绍了第一种利用大规模多模态先前训练进行机器人操作的方法,通过从大规模音频 - 视觉先前训练中获取表示来提高机器人操作的性能。
PDF
2 months ago
Diff-Foley: 基于潜在扩散模型的同步视频 - 音频合成
使用 Diff-Foley 方法和潜在扩散模型进行音频与视频同步生成,其在现有的大规模数据集上取得了最先进的性能。
PDF
a year ago
Prev
Next