语言模型是零 - shot 视频问答的因果知识提取器

CVPRApr, 2023

语言模型是零 - shot 视频问答的因果知识提取器

Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering

Hung-Ting Su, Yulei Niu, Xudong Lin, Winston H. Hsu, Shih-Fu Chang

TL;DR提出了一种从语言模型中提取因果知识的框架 CaKE-LM，用于解决视频因果问答问题（CVidQA），并在 NExT-QA 和 Causal-VidQA 数据集上取得了显著的优势。

Abstract

causal video question answering (CVidQA) queries not only association or temporal relations but also causal relations in a video. Existing question synthesis methods pre-trained question generation (QG) systems o

causal video question answering causal knowledge extraction language models zero-shot learning temporal relations

发现论文，激发创造

大型语言模型是视频问答中的时间和因果推理器

通过使用 Flipped-VQA 框架，我们成功应用于 LLaMA-VQA 和其它 LLMs 模型，取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果，并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用，还减轻了由于过度依赖问题而导致错误答案的语言偏见。

Oct, 2023

用填空翻译和一致性优化实现零样本通识常识问答

本研究针对常识问题回答（Commonsense question answering）的挑战，提出了利用预训练语言模型中的 “隐含知识”，通过四种翻译方法，探索如何更好地调动语言模型中的常识知识。研究通过在零样本情况下对三个 CQA 数据集进行实验，证明了该方法对增强模型的性能十分有效，并且结合外部知识库进一步提高了模型性能。同时，文章还分析了各种填空翻译方法的不同特点和优缺点。

Jan, 2022

知识增强语言模型用于因果关系分类

本文研究如何将常识知识加入预训练的语言模型中，并发现这种方式可以提高模型在因果关系分类和常识因果推理任务中的表现。

Dec, 2021

基于零样本知识生成的基于知识的视觉问答

基于预训练语言模型的知识生成方法在知识型视觉问答方面表现优于以往零样本方法，生成的知识普遍相关且有帮助。

Feb, 2024

基於大型語言模型的無人系統知識庫問答的上下文學習

基于知识库的问答（KBQA）旨在根据知识库来回答事实性问题。本研究针对无人系统中的知识图推理问答的 CCKS2023 竞赛，在 ChatGPT 和 GPT-3 等大型语言模型在许多问答任务中取得的最近成功的启发下，提出了基于 ChatGPT 的 Cypher 查询语言（CQL）生成框架，从给定的自然语言问题中生成最适合的 CQL 查询。我们的生成框架包括六个部分：根据给定的自然语言问题预测 CQL 的语法相关信息的辅助模型，从给定的自然语言问题中提取专有名词的专有名词匹配器，检索输入样例的相似示例的演示示例选择器，设计 ChatGPT 的输入模板的提示构造器，生成 CQL 的 ChatGPT 模型，以及从多样化的输出中获取最终答案的集成模型。凭借我们的基于 ChatGPT 的 CQL 生成框架，我们在 CCKS 2023 无人系统知识图推理问答竞赛中获得第二名，F1-score 为 0.92676。

Nov, 2023

基于大型多模型的弱监督高斯对比定位的视频问答

提出了一种新颖的弱监督框架，用于利用问题关键时刻作为视觉输入强迫大型多模态模型进行视频问答，通过融合问题和答案对作为事件描述来找到多个关键帧作为目标时刻，并利用高斯对比基础模块学习视频的时间结构，将问题关键帧作为正样本作为大型多模态模型的视觉输入，实验证明该框架相比于先前最先进的方法取得了显著的改进。

Jan, 2024

灵活结构化的知识驱动问答

本文提出了一种使用语言模型结合知识进行基于知识的问答的方法，其中包括知识构建方法和深度融合机制，可以优雅地提取结构数据和提高模型性能。

Sep, 2022

利用大型语言模型理解因果关系：可行性和机遇

我们分析了大型语言模型（LLMs) 回答因果问题的能力以及它们在三种类型的因果问题中的优势和劣势。我们认为，目前的 LLMs 可以结合现有的因果知识回答因果问题，但它们还不能满足于发现新的知识或高精度的决策任务。我们探讨了可能的未来方向和机会，例如启用显式和隐式因果模块以及深度因果感知 LLMs。这些不仅能够使 LLMs 回答更多不同类型的因果问题，也能使 LLMs 在一般情况下更加值得信赖和高效。

Apr, 2023

跨模态问答中因果感知的视觉场景发现

本文提出了一个名为 CMQR 的事件级视觉问答推理框架，旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明，CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。

Apr, 2023

通过冻结大型语言模型实现零样本视频问答

本研究提出一种简单而有效的 Retrieving-to-Answer 框架，通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本，再与问题一起使用大型语言模型产生答案，可以在多个 VideoQA 基准测试中达到较高水平，并且无需跨模态微调。

Jun, 2023