可靠的学术会议问答:基于大型语言模型的研究
通过大型语言模型(LLMs)进行程序安排调度的研究表明,在零 - shot 设定下,LLMs 即使在没有特定训练的情况下,也能够创建合理的会议日程草案。
Jun, 2024
我们介绍了我们在 WSDM Cup 2024 的 “Conversational Multi-Doc QA” 挑战中的获胜方法,利用了大型语言模型(LLM)的优越自然语言理解和生成能力,通过将 LLMs 调整到任务需求,制定了混合训练策略来充分利用领域内无标注数据,并采用先进的文本嵌入模型来过滤可能不相关的文档,并设计和比较多种模型集成的方法,配备了所有这些技术,我们的解决方案最终在 WSDM Cup 2024 中获得了第一名,大大超过了竞争对手。
Feb, 2024
本研究提供了一个基于微软产品和技术问题的产业特定 QA 知识的检测基准 MSQA,旨在评估旨在提高 LLM 领域特定能力的方法。此外,我们提出了一种新的模型交互范式,可以使 LLM 在不熟练的领域特定任务上实现更好的性能。实验表明,遵循我们的模型融合框架的方法优于常用的检索方法的 LLM。
May, 2023
我们通过手动创建一个高质量的事实问答近义词语料库,并与先前工作中的其他相关度量标准相结合,以评估现代大型语言模型(LLMs)的语义一致性,以构建和评估一个用于事实问答参考无关性能预测的框架 -- 预测语言模型准确回答问题的可能性。通过对五个现代 LLMs 对该框架进行评估,我们展示了令人鼓舞的结果,显著超越了基线水平。
Nov, 2023
这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架),利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集,同时提供了三个广泛和高质量的 AQA 基准数据集,该框架和数据集推动了 AQA 研究的进展,并且所训练的模型在性能上优于现有的最先进模型,而且相比人工注释的训练数据,本数据集上训练的模型表现出更强的泛化能力。
Dec, 2023
该论文研究基于对话问答模型中标准数据集对模型的语义理解能力的反应度以及对话内容对模型回答问题的影响,并指出了 QuAC 和 CoQA 两个常用数据集的一些 潜在问题及其存在的偏见。
Sep, 2019
本篇论文提出了一种新的方法,通过结合大型语言模型(LLMs)和上下文关键词提取,提升波斯语对话式问答系统(CQA)的性能,实现更准确、连贯的回答,有效处理隐含问题和依赖于对话上下文的复杂问题。评估结果显示,该方法在 CQA 性能上相较于现有方法和仅使用 LLMs 的基准测试结果高出 8%。
Apr, 2024
该研究探讨了大型语言模型 (LLMs) 在具有挑战性的条件问答领域中的能力和局限性。利用条件问答 (CQA) 数据集,重点关注 T5 和 UL2 等生成模型,我们评估了 LLMs 在不同问题类型上的性能。研究发现,经过微调的 LLMs 在某些情况下可以超越现有技术在一些方面的表现,即使没有完全编码所有输入上下文,对于是 / 否问题的精确匹配 (EM) 和 F1 分数有 7-8 个点的增加。然而,这些模型在抽取性问答方面遇到了挑战,在与现有技术相比落后于 10 个以上的点,并且在减少注入错误信息的风险方面也存在问题。与神谕检索器进行的一项研究强调了有效证据检索的关键作用,强调了该领域需要先进解决方案的必要性。此外,我们强调了评估评价指标对性能评估的重要影响,并倡导使用更全面的评估框架。任务的复杂性、观察到的性能差异以及在条件问答任务中改进训练任务和探索基于提示的技术以提高 LLMs 性能的未来工作的需求,突显了这一领域面临的持续挑战。
Dec, 2023
本研究介绍了一个基于 NFDI4DataScience Gateway 的学术问答系统,采用了检索增强生成模型(RAG)的方法。该系统利用强大的大语言模型提供动态交互和会话式搜索,通过实验分析证明了 Gateway 和学术问答系统的有效性。
Jun, 2024