提升大型语言模型性能以更准确地回答问题和提取信息
使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取,并通过微调现有德语 QA 模型提高性能,同时还讨论了评估信息提取任务的相关度得分指标。
Sep, 2023
人工智能广泛应用于解决与市场归因和预算优化相关的问题,然而由于模型复杂,很难在没有完整的实施团队的情况下理解模型的运作和见解,理论上,最近开发的大型语言模型(如 GPT-4)可以用来提供营销见解,以减少做出关键决策所需的时间和精力。 实际上,要可靠地使用这些模型,需要克服一些重大挑战,我们聚焦于领域特定的问答、用于数据检索的 SQL 生成以及表格分析,并展示了如何通过语义搜索、提示工程和微调的结合来显著提高大型语言模型执行这些任务的准确性。我们比较了专有模型(如 GPT-4)和开源模型(如 Llama-2-70b),以及各种嵌入方法。这些模型在特定于市场混合建模和归因的样本用例上进行了测试。
Apr, 2024
使用参数高效微调(PEFT)方法中的量化模型,通过细调大型语言模型(LLMs)自动为短答案和论文分配连续数值评分以及生成相关反馈,达到高准确性且成本和延迟相对较低。
May, 2024
提出了一个多阶段的框架,通过生成合理的依据并验证修正错误,将其作为支持参考生成答案,提高了 GPT-3.5-turbo 在生命科学行业药物相关查询中的响应质量。该框架使得 GPT-3.5-turbo 对两个数据集的答案更可靠和准确,并通过与商业模型进行竞争,提高了小型开放访问的 LLMs 的准确性。
Nov, 2023
通过在城市更新领域中自动产生问答数据集,并使用 Prefix 和 LoRA 的联合微调方法对模型进行联合微调训练,本研究提出的联合微调训练方法能够显著提高 LLM 在知识问答任务上的性能,相比 LoRA 微调,该方法使测试中的 Bleu 和 Rouge 指标提高了约 5%;相比微调前的模型,该方法使 Bleu 和 Rouge 指标提高了约 15% -20%。该研究证明了在城市更新知识问答任务中使用 Prefix 和 LoRA 的联合微调方法对 ChatGLM 的有效性和优越性,为 LLM 在城市更新相关任务上的微调提供了新的方法。
Nov, 2023
该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用,结果表明,与非个性化模型相比,个性化调整能够提高模型的推理能力,并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升,这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。
Feb, 2024
大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐,以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略,该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明,该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。
Sep, 2023
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024