KIWI：应答研究问题的知识密集型写作指南数据集

Mar, 2024

KIWI：应答研究问题的知识密集型写作指南数据集

KIWI: A Dataset of Knowledge-Intensive Writing Instructions for Answering Research Questions

Fangyuan Xu, Kyle Lo, Luca Soldaini, Bailey Kuehl, Eunsol Choi...

TL;DR通过对 LLMs 在写作辅助任务上的能力进行评估，我们发现所有模型在将新信息纳入现有答案以及进行精确和明确编辑方面都有困难。此外，我们发现模型在判断其输出是否成功遵循用户指令方面也存在困难。研究结果表明，KIWI 将成为衡量进展和改进 LLMs 在知识密集型写作任务中的指令跟随能力的宝贵资源。

Abstract

large language models (LLMs) adapted to follow user instructions are now widely deployed as conversational agents. In this work, we examine one increasingly common instruction-following task: providing writing assistanc

large language models kiwi dataset writing assistance knowledge-intensive writing instruction-following capabilities

发现论文，激发创造

大语言模型时代的创造力支持：涉及新兴作家的实证研究

通过实证用户研究 (n=30)，我们调查了现代大型语言模型 (LLMs) 在协助专业作家方面的效用，发现作家在规划、翻译和审阅等认知活动中都寻求 LLMs 的帮助，尤其在翻译和审阅方面 LLMs 更为有帮助，同时我们的研究结果也强调了利用 LLMs 进行创意写作辅助的未来研究方向。

Sep, 2023

提升指令遵循评估能力的研究：以摘要为例的案例研究

通过对大型语言模型的指令遵循能力进行度量的多种度量方法的元评估，分析评估方法与人工判断之间的一致性，并提出基于 LLM 的无参考评估方法，改进了传统基准，并达到了要求高质量摘要的昂贵基于参考文献的指标的效果。

Oct, 2023

KITLM：面向问题回答的领域特定知识整合语言模型

通过将相关信息融入到语言模型中，我们提出了一种新颖的知识库融合方法 KITLM，显著提高了语言模型的性能，并在问题回答方面取得了 1.5 倍的改进。我们还发布了两个精选数据集，加快了在专业领域中的知识融合研究进展。

Aug, 2023

交互式 KBQA：大型语言模型的知识库问答多轮交互

通过与知识库进行直接交互生成逻辑形式，我们引入了 Interactive-KBQA 框架来解决知识库问答领域的问题，该框架包括三种通用 API 用于知识库交互，通过步骤推理过程注释数据集，展示了我们模型的适应性和潜力，并在低资源场景中以极少的示例达到了优秀的结果。

Feb, 2024

GenQA：从少数提示生成数百万个指令

研究如何从单个提示生成大型指导数据集，使用较少的人工监督，使 LLMs 能够撰写多样化的指令示例，从简单的完成任务到复杂的多轮对话，并在知识密集型任务和对话评估中超过了 WizardLM 和 Ultrachat，在扩展性和可伸缩性方面超过了公共指导微调数据集。

Jun, 2024

评估语言模型用于知识库补全

本文介绍了一种更具挑战性的基准数据集和方法，用于评估语言模型在无监督知识库补全方面的潜力，并发现了语言模型在补全 Wikidata 中 nativeLanguage、usedLanguage 和 citizenOf 等关系方面表现出强大的泛化能力。

Mar, 2023

FollowIR: 评估和教授信息检索模型遵循指导

现代大型语言模型具备跟随长而复杂的指令以完成各种用户任务的能力。本研究引入了数据集 FollowIR，其中包含了严格的指令评估基准以及用于帮助信息检索模型学习更好地遵循真实世界指令的训练集。我们的结果表明现有的检索模型未能正确地使用指令，只是简单地使用关键词，并且难以理解长篇信息。然而，我们展示了信息检索模型学习遵循复杂指令的可能性：我们的新模型 FollowIR-7B 在我们的训练集上经过微调后有显著的改进（超过 13%）。

Mar, 2024

人工智能与人类协作的分类系统构建：以专业写作助手为例研究

通过人工智能协作共同开发的领域特定写作助手分类系统来解决大型语言模型在商业背景下理解能力的限制，为不同利益相关者提供定制化的大型语言模型驱动的写作辅助功能。

Jun, 2024

WikiTableEdit: 自然语言指令下的表格编辑基准

本研究通过 WikiTableEdit 数据集，评估大型语言模型在不规则结构的表格编辑任务中的表现，提出了使用自然语言指令进行表格编辑的挑战，并将数据集发布给社区推进相关研究。

Mar, 2024

基于 LLM 的开放领域综合任务和知识助手与可编程策略

KITA 是一种可编程框架，用于创建处理复杂用户交互的面向任务的对话代理，通过其声明式范式可提供可靠的有根据的响应和可控的代理策略。

Jul, 2024