BriefGPT.xyz
大模型
Ask
alpha
关键词
context-aware fusion
搜索结果 - 2
AUD-TGN:在野外音频视觉环境中借助时间卷积和 GPT-2 推进动作单位检测
利用音频数据和视觉数据协同作用对于理解人类情绪和行为非常重要,本论文提出了一种利用音视频多模态数据的新方法,通过模型化时间关系和利用预训练的 GPT-2 模型进行上下文感知的多模态信息融合,显著提高了面部动作单元检测的准确性,突显了对复杂场
→
PDF
3 months ago
ICCV
Pix2Vox:基于单视图和多视图的上下文感知三维重建
提出了一种名为 Pix2Vox 的新框架,采用精心设计的编码器 - 解码器生成每个图像的粗略 3D 体积,再引入上下文感知融合模块自适应地选择不同粗略 3D 体积中每个部分(例如桌腿)的高质量重构,以获得融合的 3D 体积,并通过一个细化器
→
PDF
5 years ago
Prev
Next