个性化大型语言模型指导人工专家学习
本文提出了一个三步方法,可以使用一个较小的人类专家预测集训练学习延迟算法。该方法涉及使用具有地面真实标签的嵌入模型进行训练,然后进行专家能力预测器模型的训练,生成人工专家预测。 我们在两个公共数据集上评估了我们的方法,并展示了即使对每个类别只有少量的专家预测,这些算法也能超过单独使用人类专家和人工智能的性能。
Apr, 2023
通过利用大型语言模型(LLMs)的口述能力和内部状态,该研究提出了一种新的引导性延期系统,结合人工智能和人类决策者的优势,以减少 LLMs 在关键决策时产生的不确定性,并证明通过利用大型模型的数据对较小的 LLMs 进行微调可以提高性能并保持计算效率。一项初步研究展示了该延期系统的有效性。
Jun, 2024
学习推迟(L2D)框架通过将困难决策交给人类专家,实现了自主系统的安全性和稳健性。我们在此工作中缓解了每个专家都是明确识别的假设,并设计了一个能够应对测试时从未遇到过的专家的 L2D 系统。我们使用元学习来实现这一目标,同时考虑了基于优化和基于模型的变种。通过给出用于描述当前可用专家的小的上下文集合,我们的框架可以快速适应其推迟策略。对于基于模型的方法,我们采用了一种注意机制,可以查找上下文集合中与给定测试点相似的点,从而更精确地评估专家的能力。在实验中,我们在图像识别、交通标志检测和皮肤病病变诊断基准上验证了我们的方法。
Mar, 2024
我们提出了一个框架,在混合机器学习模型和专家预测的预测系统中,同时学习分类器和推迟系统,通过推迟到一个或多个人类专家来确保较低置信度的分类器的准确性和公平性。测试结果表明,我们的学习框架显著提高了最终预测的准确性和公平性,而且在一个实际的内容审核数据集上也优于传统基线。
Feb, 2021
该论文介绍了一种名为 LogicGuide 的工具,通过设置有状态和增量约束来指导语言模型的理性推理,即模型在这个指导下生成的内容是合理的。经过测试,LogicGuide 工具有效地提高了 GPT-3、GPT-3.5 Turbo 和 LLaMA 等模型的性能。
Jun, 2023
通过提取蕴含于离线数据中的知识,AutoGuide 框架在大型语言模型的知识缺失问题上取得了重大突破,并通过提供与代理程序当前决策过程相关的有用知识,在顺序决策基准测试中大幅优于竞争的基于大型语言模型的基线模型。
Mar, 2024
大型语言模型(LLMs)显示出它们在人类世界的丰富语义知识方面的强大自动推理和规划能力。然而,接地问题仍然阻碍了 LLMs 在真实环境中的应用。为了自主将 LLM 接地到环境中,我们提出了自主驱动接地(SDG)框架,用于自动和渐进地通过自主驱动技能学习将 LLM 接地。通过在著名的指令遵循任务集 - BabyAI 中进行验证,SDG 在最具挑战性的任务中达到了与成百上千次演示成本的模仿学习方法相媲美的性能,证明了学习到的技能的有效性,显示出我们框架的可行性和效率。
Sep, 2023
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
这篇论文介绍了在专家推迟决策的场景下,利用学习算法提高决策准确性的方法,通过分析一系列代理损失函数的理论性质,设计并使用最小量的数据训练出高效准确的决策系统。
Jul, 2022