- TANQ: 一个开放领域的表格问答数据集
TANQ 是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型 GPT4 的综合 F1 得分为 29.1,相较于人类表现差了 19.7 个百分点,我 - UQA: 乌尔都问答语料库
介绍了 UQA,一个用于乌尔都语(Urdu)问答和文本理解的新数据集,通过一种称为 EATS 的技术,将斯坦福问答数据集(SQuAD2.0)的答案段落的翻译上下文中的答案范围进行保留,在两个候选项(Google Translator 和 S - 何时检索:教导 LLMs 有效利用信息检索
本文介绍了如何使用大型语言模型(LLMs)有效地学习使用现成的信息检索系统来回答问题时所需的附加上下文。通过在 PopQA 数据集上进行评估,我们展示了 Adapt-LLM 在使用所有问题的信息检索、仅使用 LLM 的参数存储器以及使用人气 - Suvach -- 生成的印地语 QA 基准
为了在印度语中评估问答(QA)的当前评估基准,常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性,导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准, - 使用大型语言模型的知识图谱上的多跳问答
鉴于知识图谱,以多跳问题为基础评估语言模型在知识图谱中的问答能力,展示了基于信息检索和语义解析的方法能够具有竞争力的性能。
- KS-LLM: 大型语言模型问题回答的证据文档知识选择
利用证据文档作为额外支持材料的知识选择方法可有效解决大型语言模型面临的幻觉问题和知识密集任务,提升大型语言模型的性能。该方法使用三元组从证据文档中选择有益于回答问题的知识片段,并与大型语言模型结合产生答案,实验证明其优于基线方法并取得最佳结 - 移植大型语言模型到移动设备以进行问答
将大型语言模型部署在移动设备上,使得所有自然语言处理的能力可在设备上使用;LLM 的重要用例是问答系统,可以提供准确和上下文相关的回答给用户的各种查询,并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 - AAAI领域专属问答的检索增强生成
为 Adobe 产品建立内部问答系统,提出了一种新的框架来编译大型问答数据库并发展了基于检索感知的大型语言模型微调方法,展示了微调检索器在最终生成中带来的重大改进,降低了生成过程中的幻觉并在上下文中保留了最新的检索信息以实现情境基础。
- 在不完整知识图谱问答中将 LLM 视为代理和知识图谱的生成器
本文针对大型语言模型(LLMs)中知识不足和生成幻觉的问题,提出了一种与知识图谱(KGs)结合的方法,利用生成在图中的方法(GoG)解决不完全知识图谱下的问答问题,并证明 GoG 可在一定程度上解决此类问题。
- EuSQuAD:面向巴斯克语的 SQuAD2.0 自动翻译和对齐系统
EuSQuAD 是第一个将 SQuAD2.0 自动翻译和对齐成巴斯克语的倡议,产生了超过 142k 个问答示例,通过广泛的定性分析和 QA 实验以及新的人工标注数据集的评估,证明了 EuSQuAD 的价值。
- ICLRSuRe: 使用答案候选人总结对 LLMs 的开放领域 QA 检索
通过总结检索,提高大型语言模型在开放域问答中的准确性,并能与各种检索方法和语言模型集成。
- CuriousLLM: 提升多文档问答与推理注入的知识图提示
在问答领域中,将大型语言模型与外部数据库结合已经取得了巨大的成功。然而,这些方法在提供复杂问答任务所需的高级推理方面常常效果不佳。为了解决这些问题,我们改进了一种称为 “知识图谱提示” 的新方法,该方法结合了知识图谱和基于大型语言模型的代理 - 针对塞尔维亚语问答的 Transformer 模型的合成数据集创建和微调
使用改进的翻译 - 对齐 - 检索方法生成了最大的塞尔维亚问答数据集 SQuAD-sr,并使用该数据集对几个预训练的问答模型进行了微调,最佳结果表明我们的模型超过了零 - shot 基线但未超越人类表现。
- ACL通过可靠和时间感知的证据检索改善健康问题回答
利用 PubMed 作为可靠的医学研究文档集合,针对开放领域的问答设置,研究通过修改检索设置来提高问答系统性能的方法。结果显示,减少检索到的文档数量,偏爱近期和被引用次数较多的文献可以提高最终的宏观 F1 得分达到 10%。
- 基于语言和领域的大型语言模型的预训练和更新:一个日本商业领域的案例研究
本研究通过结合非英语语言和高需求产业领域的研究,探讨了一种特定于日本商业领域的大型语言模型(LLM)。我们从头开始训练了一个 130 亿参数的 LLM,使用了一组新的商业文本和专利,并持续使用最新的商业文件进行预训练。随后,我们提出了一个新 - ACL小模型仍然是有效的跨领域论据提取器
通过探索基于问题回答和模板填充的技术,研究了本文中的本体转移方法对事件参数提取的有效性,以及小型模型训练在适当的源本体上可以实现零射击性能优于 GPT-3.5 或 GPT-4 的挑战。
- LLoCO:离线学习长上下文
通过上下文压缩和领域内参数高效微调,我们提出了一种解决大型语言模型处理长篇内容的挑战的新方法,使得 LLM 能够创建原始上下文的简洁表示,并有效地检索相关信息以准确回答问题。我们介绍了 LLoCO,一种通过使用 LoRA 组合上下文压缩、检 - COLING解开纠纷:在大型语言模型中交织相互冲突的知识和推理技能
利用新数据集 KNOT 对大型语言模型进行与知识冲突处理相关的能力检验,将冲突知识的推理划分为三个层次,即直接提取、显式推理和隐式推理,并通过详细实验建立了利用冲突知识的指导原则。
- ICML利用大型语言模型理解电信标准
通过评估最新的大型语言模型作为第三代合作伙伴计划(3GPP)文件参考的问答助手的能力,本文提供了性能评估的基准和测量方法,进行了数据预处理和微调,提供了适用于所有语言模型的增加响应准确性的指南,并提供了一种名为 TeleRoBERTa 的模 - 语言模型中的多跳问题回答的检索增强知识编辑
用于多跳问题回答的检索增强模型编辑框架(RAE)利用相互信息最大化的检索方法和修剪策略来提供精确的答案和更新的知识。