BriefGPT.xyz
Ask
alpha
关键词
multimodal llm
搜索结果 - 4
TokenPacker: 多模态 LLM 的高效视觉投影器
我们提出了一种新的视觉投影仪,采用粗细方案,通过注入丰富的特征生成压缩的视觉标记,并实现了更高的效率。
PDF
4 days ago
ACL
再次聆听并选择正确答案:大语言模型下自动语音识别的新范式
该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER,通过引入一种多模态 LLM(即 SpeechGPT)来改善纠正输出的忠实度,然后将 GER 重新设计为带有 logits 校准的 cloze 测试,以消除输入信息冗余并简化
→
PDF
2 months ago
语言模型为何产生幻觉,如何获得(证据性)凝聚:忠实自然语言生成的感知、意图和推广学习
我们展示了 LLMs 的幻觉现象是因为它们的输出没有限制为与它们有证据支持的论点同义词,这一情况被称为证据闭合。我们进一步展示了如何约束 LLMs 以产生符合证据闭合的输出,并引入了多模式 LLMs、学习 - 胡言乱语 - 修剪(Learn
→
PDF
8 months ago
AnyMAL: 一种高效且可扩展的任意模态增强语言模型
我们提出了 Any-Modality Augmented Language Model (AnyMAL),这是一个统一模型,可以对多样化的输入模态信号(文本、图像、视频、音频、IMU 运动传感器)进行推理,并生成文本回复。AnyMAL 继承
→
PDF
9 months ago
Prev
Next