multi-modal domain | BriefGPT

关键词multi-modal domain

搜索结果 - 4

BuDDIE：一个用于多任务信息提取的商业文档数据集
通过介绍 BuDDIE（商业文档信息抽取数据集），本文提供了一个包含丰富且稠密注释的多任务数据集，其中包含 1,665 个现实世界商业文档。该数据集涵盖了文档分类、关键实体提取和视觉问答等多个任务，并提供了每个任务的基线结果。
PDF3 months ago
多模态学习稀疏检索与概率扩展控制
通过利用 Bernoulli 随机变量控制查询扩展，我们提出的训练算法能够有效减少高维共同激活和语义偏差，并在多模态设置中训练了一种有效的 LSR (learned sparse retrieval) 检索模型，该模型在训练时间和 GPU
PDF4 months ago
文本 - 视频检索的跨模态适配器
提出了一种跨模态适配器（Cross-Modal Adapter）方法，对预训练模型进行参数高效微调，可在多模态模型上减少 99.6％的参数、节省 30％的训练时间以及共享预训练模型，在 MSRVTT、MSVD、VATEX、Activity
PDF2 years ago
检测音视频语音识别的对抗攻击
本研究提出了一种基于音频和视频流之间时间相关性的攻击检测方法，利用同步置信度得分作为音视频相关性代理来检测对音视频语音识别模型的对抗攻击，并在 GRID 和 LRW 数据集上的实验结果表明该方法是检测此类攻击的有效方式。
PDF5 years ago