大语言模型微调方法及评估指标的比较：以旅行聊天机器人为案例

Aug, 2024

大语言模型微调方法及评估指标的比较：以旅行聊天机器人为案例

A Comparison of LLM Finetuning Methods & Evaluation Metrics with Travel Chatbot Use Case

Sonia Meyer, Shreya Singh, Bertha Tam, Christopher Ton, Angel Ren

TL;DR本研究针对大语言模型（LLM）微调方法与评估指标的现有差距进行了比较，特别是涉及旅行聊天机器人的案例。论文的创新之处在于使用了多种微调和评估方法，发现虽然量化指标与人类评估不一致，但OpenAI的GPT-4评估与人类评估高度吻合，强调了在评估过程中保持人类参与的重要性。该研究表明，改进的微调方法（如RLHF）显著提升了模型性能，且Mistral模型总体表现优于LLaMa模型。

Abstract

This research compares large language model (LLM) fine-tuning methods, including Quantized Low Rank Adapter (QLoRA), Retrieval Augmented fine-tuning (RAFT), and Reinforcement Learning from Human Feedback (RLHF), and additionally compared LLM evaluation methods including End to End (E2E

发现论文，激发创造

MINT: 使用工具和语言反馈评估多轮交互中的LLMs

通过使用工具和自然语言反馈，MINT基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力，并从20个开源和闭源的语言模型分析中发现，在工具交互和自然语言反馈的情况下，LLMs的性能有所提升。

Sep, 2023

Prometheus: 语言模型细粒度评估能力的引入

通过建立Feedback Collection数据集，使用Prometheus这一开源LLM评估模型，我们可以有效地根据用户提供的评分标准来评估任何长篇文本，其得分与人类评估员的相关性达到了0.897，与GPT-4相当，并且明显优于ChatGPT (0.392)。

Oct, 2023

建立非专业化LLM用户的微调、增强检索生成和软提示的性能基准

通过细调、检索增强生成（RAG）和软提示等方法提高大型语言模型（LLMs）的性能的研究一般侧重于使用高度技术性或高成本的技术，使许多新发现的方法对非技术用户相对不可访问。在本文中，我们测试了未修改版本的GPT 3.5，经过细调的版本，以及相同的未修改模型在访问矢量化的RAG数据库时，单独或与基本的非算法软提示相结合。每种情况下，我们测试了模型回答一组100个与2021年9月之后（GPT 3.5的训练数据集结束的时间点）相关的事件问题的能力。我们发现，如果使用商业平台并应用默认设置以建立基准输出集，经过细调的模型优于GPT 3.5 Turbo，而RAG方法优于两者。应用软提示显著提高了每种方法的性能。

Nov, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM评估和Rouge-L分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术(RAG)，证明精调模型在问题回答能力方面能够超越零-shot LLMs的准确性。

Jan, 2024

WildBench：基于真实用户的挑战性任务对LLMs进行基准测试

WildBench是一个自动评估框架，使用挑战性的真实用户查询来评估大型语言模型。它基于1,024个从超过一百万人机对话日志中精心选择的任务构建，并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估，并提供结构化解释来支持分数和比较，使得结果更可靠且易于解释。该框架中的度量标准在模型输出方面表现出与人工评分的很强相关性，具有较高的评估效率和成本效益。

Jun, 2024

适用于对话的不同技术方法评估：微调还是RAG？

研究了大型语言模型（LLMs）在人机对话中的回应生成任务中的限制及不同对话类型下的LLM适应技术的评估方法，发现没有普遍适用的最佳适应技术，包括人工评估以避免自动测量引起的不准确预期和结果。

Jun, 2024

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

TourLLM: 提升LLMs的旅游知识

我们构建了一个文化和旅游领域的监督微调数据集Cultour，其中包含旅游知识库QA数据、旅行日志数据和旅游多样性QA数据。我们提出了一种基于Cultour的Qwen模型TourLLM，通过监督微调来提高对景点和旅行规划信息的质量。实验结果表明，TourLLM生成的回复效果显著提高。

Jun, 2024

使用异构反馈微调大型语言模型的框架

本研究旨在解决传统反馈数据集在收集困难、范围有限和样本质量不一的问题。提出的框架将不同类型的反馈数据整合为统一的监督格式，并从中提取高质量、多样化的子集，从而显著提升模型性能，尤其在指令执行和偏见减少方面表现出色。

Aug, 2024

从基础到突破的最终指南：大型语言模型微调的全面技术、研究、最佳实践、应用研究挑战与机遇综述

本报告探讨了大型语言模型（LLMs）的微调，结合理论见解与实践应用，填补了传统自然语言处理（NLP）模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程，并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡，报告为研究者和从业者提供了实用的见解。

Aug, 2024