通过在人类循环中使用LLMs优化和评估检索增强型问答聊天机器人

Jul, 2024

通过在人类循环中使用LLMs优化和评估检索增强型问答聊天机器人

Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop

Anum Afzal, Alexander Kowsik, Rajna Fani, Florian Matthes

TL;DR通过插入人在开发周期的不同环节，如数据集收集、提示优化和生成输出的评估，我们改进了以大型语言模型驱动的人力资源支持聊天机器人的响应质量，探索了替代的检索方法，从而创建了一种高效、可扩展和灵活的工具，以有效解决员工的问题。我们的实验证明GPT-4优于其他模型，并能通过内部推理能力克服数据的不一致性。此外，通过专家分析，我们推断出G-Eval和Prometheus等无参考评价指标与人工评估的可靠性高度一致。

Abstract

large language models have found application in various mundane and repetitive tasks including Human Resource (HR) support. We worked with the domain experts of SAP SE to develop an hr support chatbot as an effic

发现论文，激发创造

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用GPT模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于LLM的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

ChaTA：运用开源LLMs构建智能问答辅导助手

为应对可扩展且智能的问答挑战，我们引入了一种创新解决方案，利用开源的大型语言模型（LLMs）来确保数据隐私。我们在一个入门计算机科学课程的 Piazza 数据集上进行了实验，并对一个小的子集进行了人工评估和自动 LLM 评估。我们初步发现通过多种建模技术能够将答案的质量提升33％，而 RAG 是一个有影响力的改进。这项工作为开发适用于在线问答平台的智能 QA 助手 ChaTA 打下了基础。

Nov, 2023

通过知识挖掘和摘要的自我增强领域特定聊天机器人训练方法

通过从特定领域的文本源有效提取相关知识和自适应培训聊天机器人，我们引入了一种增强大型语言模型（LLMs）的新方法。我们的模型通过训练知识矿工LLMiner自动从相关文档中提取问题和答案对，并将这些QA对与对话数据集结合来对LLM进行微调，从而丰富了其特定领域的专业知识和对话能力。与通常基于领域语料库直接微调的模型相比，我们的模型在新的评估基准上表现出显著的性能改进，并且只需要人为介入的最小数量的种子实例，为LLMs通过模型合成的训练数据实现自我改善提供了可能性。

Nov, 2023

Chatbot Arena: 通过人类偏好评估LLM的开放平台

Chatbot Arena是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。

Mar, 2024

HumanRankEval: 作为对话助手的语言模型的自动评估

为了加快语言模型作为对话助手的发展，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一个大规模、多样化和高质量的问题集组成，每个问题都有几个由人类撰写和评分的答案。通过对HRE排列这些答案并计算它们与相应人类排名的相关性，我们支持了HRE的有效性，并研究了它在不同大小的预训练和指导调整语言模型中的效率。我们展示了HRE与人类判断相关，并且在指导调整后对模型变化特别敏感。

May, 2024

评估LLM申请的挑战：自动、人工和基于LLM的方法分析

聊天机器人的评估是一个重要问题，本研究介绍了一种综合评估机制，该机制结合了人类评估和基于LLM的评估，并通过实验证明基于因子的评估在LLM应用中提供更好的洞察力，进一步加强了在主要功能不是直接检索的关键空间中使用人类评估的论点。

Jun, 2024

基于LLM的问答系统中检索组件的评估

评估大规模语言模型在问答系统中的检索组件性能的基线方法。

Jun, 2024

构建检索增强的生成式聊天机器人的相关事实

基于我们对三个NVIDIA聊天机器人的经验，我们提出了一个构建基于RAG的聊天机器人的框架：包括FACTS框架、十五个RAG流水线控制点以及大型和小型LLMs之间精确度-延迟权衡的实证结果。据我们所知，这是第一篇提供了从综合视角看构建安全企业级聊天机器人的因素和解决方案的研究论文。

Jul, 2024

自动评估人机交互问答的IQA-EVAL

本研究解决了传统评估大型语言模型（LLMs）在问答中的不足，尤其是未考虑人机交互动态特征的问题。我们提出了一个名为IQA-EVAL的自动评估框架，通过引入基于LLM的评估代理（LEA），模拟人类行为并自动评估互动，显著提高了与人类评估的相关性。我们的实验显示，该框架在复杂和模糊的问答任务中将评估成本减少至5000美元。

Aug, 2024