提升大型语言模型性能以更准确地回答问题和提取信息

Jan, 2024

提升大型语言模型性能以更准确地回答问题和提取信息

Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately

Liang Zhang, Katherine Jijo, Spurthi Setty, Eden Chung, Fatima Javid...

TL;DR通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Abstract

large language models (LLMs) generate responses to questions; however, their effectiveness is often hindered by sub-optimal quality of answers and occasional failures to provide accurate responses to questions. To address these challenges, a →

large language models fine-tuning feedback loops financial datasets retrieval augmented generation

发现论文，激发创造

为复杂信息抽取任务微调和对齐问答模型

使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取，并通过微调现有德语 QA 模型提高性能，同时还讨论了评估信息提取任务的相关度得分指标。

Sep, 2023

企业版预训练语言模型 Fine Tuning 指南与推荐

使用专有文件和代码从企业存储库中细调 LLMa LLMs，以评估响应质量，同时提供细调 LLM 的实用指导和建议。

Mar, 2024

提升基于大型语言模型的市场分析副驾驶员的能力：语义搜索和微调

人工智能广泛应用于解决与市场归因和预算优化相关的问题，然而由于模型复杂，很难在没有完整的实施团队的情况下理解模型的运作和见解，理论上，最近开发的大型语言模型（如 GPT-4）可以用来提供营销见解，以减少做出关键决策所需的时间和精力。实际上，要可靠地使用这些模型，需要克服一些重大挑战，我们聚焦于领域特定的问答、用于数据检索的 SQL 生成以及表格分析，并展示了如何通过语义搜索、提示工程和微调的结合来显著提高大型语言模型执行这些任务的准确性。我们比较了专有模型（如 GPT-4）和开源模型（如 Llama-2-70b），以及各种嵌入方法。这些模型在特定于市场混合建模和归因的样本用例上进行了测试。

Apr, 2024

利用大型语言模型研究自动评分和反馈

使用参数高效微调（PEFT）方法中的量化模型，通过细调大型语言模型（LLMs）自动为短答案和论文分配连续数值评分以及生成相关反馈，达到高准确性且成本和延迟相对较低。

May, 2024

大型语言模型中最小化事实不一致和幻觉

提出了一个多阶段的框架，通过生成合理的依据并验证修正错误，将其作为支持参考生成答案，提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确，并通过与商业模型进行竞争，提高了小型开放访问的 LLMs 的准确性。

Nov, 2023

优化和微调大型语言模型用于城市更新

通过在城市更新领域中自动产生问答数据集，并使用 Prefix 和 LoRA 的联合微调方法对模型进行联合微调训练，本研究提出的联合微调训练方法能够显著提高 LLM 在知识问答任务上的性能，相比 LoRA 微调，该方法使测试中的 Bleu 和 Rouge 指标提高了约 5%；相比微调前的模型，该方法使 Bleu 和 Rouge 指标提高了约 15% -20%。该研究证明了在城市更新知识问答任务中使用 Prefix 和 LoRA 的联合微调方法对 ChatGLM 的有效性和优越性，为 LLM 在城市更新相关任务上的微调提供了新的方法。

Nov, 2023

个性化大型语言模型

该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用，结果表明，与非个性化模型相比，个性化调整能够提高模型的推理能力，并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升，这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。

Feb, 2024

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023

利用大型语言模型和检索加强生成来提高教科书问答任务

该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法，以处理复杂的语境和多模态数据，并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG，我们的架构在非图表多项选择题中相较于基线模型，在验证集上精度提升了 4.12%，在测试集上提升了 9.84%。

Feb, 2024