利用黑盒 LLMs 学习纠正 QA 推理
利用多步骤推理方法和生成概率的置信度度量,我们提出了一种内在的自我纠正推理框架,无需人类反馈、外部工具和手工提示,在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能,同时减少了令牌的使用。
Mar, 2024
我们提出了将零样本迁移学习和黑盒大型语言模型应用于知识库问答问题的组合方法,并通过实验结果表明,这种组合方法在不同阶段均带来显著的改进,并且在有限标记数据和整个大型训练数据集的情况下都优于现有方法。
Nov, 2023
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024
利用大型语言模型 (LLMs) 和知识图谱 (KG) 的协作训练方法,本研究在知识图谱的指导下,通过迭代探索和选择性地检索任务相关的知识子图来支持推理,使得 LLMs 能更可靠地进行基于知识的推理,并同时明确阐述推理过程,实验结果表明本方法在多个数据集上显著改进,尤其在 QALD10 数据集上相对于最佳基线和最先进的方法提高了超过 10%,为今后的知识图谱和大型语言模型融合研究提供了有价值的参考,提升 LLMs 在解决复杂问题上的能力。
Feb, 2024
使用 BBox-Adapter 对黑盒大型语言模型进行轻量级适配,通过实时正数据采样和先前适配的负数据,提高了模型性能,降低了训练和推理成本。
Feb, 2024
利用 Learning from Mistakes(LeMa)方法,本研究利用大型语言模型(LLMs)对数学问题的解决能力进行改进,仿照人类学习过程中的错误驱动学习机制,通过与 GPT-4 生成的错误更正数据对进行微调,实验证明 LeMa 提升了性能,在 5 个 LLMs 和 2 个数学推理任务中持续改善性能,并在特定 LLMs(如 WizardMath 和 MetaMath)上表现出色,在具有挑战性的任务上超越了开源模型的性能。
Oct, 2023