本研究通过利用法律和金融数据的半结构化特点,实现有效检索相关背景知识来解决将现有问答系统应用于法律和金融等专业领域所面临的挑战,使得大型语言模型在领域特定的问答任务中表现优异,同时提供有用的答案解释,鼓励将大型语言模型整合到未来的法律和金融自然语言处理系统中进行研究。
Oct, 2023
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
该研究旨在解决法律问答的问题,提供包括 14 个标准数据集和基于深度学习的法律问答模型在内的全面调查。该研究重点讨论了面临的挑战和不足,以及使用的不同方法和技术。
Apr, 2023
本文介绍了利用弱标记的数据提高语言模型质量的方法,并实现了越南文章级别的基于检索的法律问答系统以应对低资源语言的挑战。经过多方面的实验,结果表明所提出的技术是有效的。
Jun, 2023
使用 OpenAI GPT 模型作为基准,结合查询提示,本研究比较分析了现有的人工智能模型在印度法律问答系统中回答法律问题方面的实用性,调查了不同的检索和问答算法的效果。该研究重点关注印度刑事司法领域的应用,该领域面临复杂性和资源限制的挑战。通过从实践法律专业人士获得反馈,以严格评估这些模型的性能,从而全面评估了 AI 在印度法律问答背景下的能力和局限性。
Sep, 2023
通过与知识库进行直接交互生成逻辑形式,我们引入了 Interactive-KBQA 框架来解决知识库问答领域的问题,该框架包括三种通用 API 用于知识库交互,通过步骤推理过程注释数据集,展示了我们模型的适应性和潜力,并在低资源场景中以极少的示例达到了优秀的结果。
Feb, 2024
开放领域问答(ODQA)作为信息系统中的关键研究领域已经崛起。现有方法采用两种主要范式来收集证据:(1)“先检索然后阅读” 范式从外部语料库中检索相关文档;(2)“先生成然后阅读” 范式使用大型语言模型(LLMs)生成相关文档。然而,两者都无法完全满足证据的多方面需求。因此,本文提出了 LLMQA,一种通用框架,将 ODQA 过程分为三个基本步骤:查询扩展、文档选择和答案生成,结合了基于检索和基于生成的证据的优势。由于 LLMs 展示了在各种任务中表现出的出色能力,我们在框架中指导 LLMs 担任多个角色,作为生成器、重新排序器和评估器,集成它们在 ODQA 过程中的协作。此外,我们引入了一种新颖的提示优化算法,以改进角色扮演提示,引导 LLMs 生成更高质量的证据和答案。在广泛使用的基准测试(NQ、WebQ 和 TriviaQA)上进行的大量实验结果表明,LLMQA 在答案准确性和证据质量方面达到了最佳表现,展示了其推进 ODQA 研究和应用的潜力。
Mar, 2024
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
本研究提出了一个名为 BeamSearchQA 的新型问题回答管道,它通过使用大型语言模型迭代地生成关于原始问题的新问题,从而启用一个迭代推理过程,以便更好地捕捉和利用隐藏知识。实验结果表明,BeamSearchQA 明显优于其他零 - shot 基线,在处理开放性领域问题回答方面具有很强的有效性。
May, 2023