BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal encoders
搜索结果 - 2
EMNLP
GenKIE:鲁棒的生成多模态文档关键信息抽取
提出了一种名为 GenKIE 的新型生成式端到端模型,利用多模态编码器嵌入视觉、版面布局和文本特征,并利用解码器生成所需的输出,从而解决了来自扫描文档的关键信息抽取任务。实验证明 GenKIE 能够有效泛化到不同类型的文档,并在 OCR 错
→
PDF
8 months ago
自适应多模态奖励引导智能体
通过使用自然语言任务描述和预训练的多模态编码器,我们提出了一种名为自适应返回条件策略(ARP)的高效框架,以增强代理的泛化能力,通过在预训练的多模态嵌入空间(如 CLIP)中计算视觉观察和自然语言指令之间的相似度作为奖励信号,并使用它训练具
→
PDF
9 months ago
Prev
Next