- 利用学生反馈将 LLM 与助记学习相结合,形成类似于 “胶水疗法” 的智能助记
关键词提示法是将新术语与简单关键词相连的易记解释。本研究构建了 SMART,一个根据真实学生学习新术语的反馈训练的关键词提示生成器。通过训练 SMART,采用了 LLaMA-2 对由用户编写的关键词提示进行微调,然后使用 LLM 对 SMA - BPO:通过遵守行为近度增强在线偏好学习 LLM
在线偏好优化(BPO)是一种特定的在线 DAP 算法,通过与行为语言模型(Behavior LLM)接近,在训练 LLM 的同时提高对人类参考文本的性能。
- 使用 LLMs 模拟目标人群的信念和偏好
对使用大型语言模型 (LLM) 来模拟人群的偏好进行了研究和评估,包括模拟焦点小组、虚拟调查和测试行为干预的应用,以及使用两种知名精调方法对电池电动汽车 (BEVs) 偏好调查的人群进行评估。同时,还提出并评估了一种新的损失项以改善对需要数 - 基于扩展的抽象论证中首选项计算与验证方法
我们提出了一种基于扩展的方法来计算和验证抽象论证系统中的偏好。我们的研究考虑了标准推理问题的逆,即在给定一个抽象论证框架和一组被证明的论证时,计算关于论证的所有可能偏好的方法和算法。我们证明了算法的正当性、完备性和终止性。该研究表明,偏好是 - 可控偏好优化:朝着可控的多目标对齐
通过引入可控偏好优化(CPO),我们可以实现模型响应满足不同目标需求的对齐模型,并在多目标对齐中获得 Pareto 改进。
- 解剖人类和 LLM 偏好
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语 - 多 LLM 之间的网络形成与动态
我们的研究分析了标准网络结构和真实世界网络的行为,以确定多个大型语言模型在人类社交动态中是否与人类社交动态一致。我们探讨了各种社交网络原则,包括微观层面的概念(如优先连接、三元闭合和同质性),以及宏观层面的概念,如社群结构和小世界现象。我们 - 偏好条件下的语言引导抽象
使用语言模型查询来构建状态抽象,以捕捉机器人学习中人类偏好的变化和指导,通过在模拟实验、用户研究和移动操作任务中的应用来证明其有效性。
- KTO:模型对齐作为前景理论优化
人们的感知有偏见,Kahneman-Tversky 前景理论告诉我们,对齐 LLMs 和人类反馈的目标隐含地包含了许多这些偏见 - 这些目标的成功部分可以归因于它们是人类感知感知的损失函数(HALOs);我们使用 Kahneman-Tver - 主观因果关系
通过观察决策者的干预偏好,我们展示了可以理解和识别决策者的主观因果判断的可能性。通过使用因果模型,我们表示因果关系,其中世界由一组变量组成,通过方程式进行关联。我们证明,如果干预偏好关系满足某些公理(与关于反事实的标准公理相关),那么我们可 - 学习推断未观察到的行为:估计用户对某个站点的偏好高于其他站点
本研究提出了一种估计用户对焦点网站的个人偏好的方法,利用用户在网站上的互动数据计算其对焦点网站的在线参与份额,并且展示了通过焦点网站的数据进行模型评估的框架。
- AAAI关于代理人目标、偏好和行为的神经推理
提出了直觉推理网络(IRENE)—— 一种新颖的神经模型,用于关于代理人目标、偏好和行为的直观心理推理,能够将以往的经验推广到新的情境。IRENE 将图神经网络和变形金刚网络相结合,对学习代理人和世界状态进行表示,并在任务环境中编码。在具有 - 情感对话机器人:理解期望和个人影响
研究调查了 745 名受访者,旨在了解不同应用中关于情感技能的期望和偏好。结果表明,在设计情感智能对话代理时,应根据应用的上下文和性质考虑适应性和情境感知。
- 基于自然语言的增强式偏好学习
使用大型语言模型(LLM)进行比较文本分类任务,不需微调,性能优于现有方法,特别是在较长的文本中。零样本学习的性能不如少样本学习。
- 通过对序列的偏好查询学习奖励机器
用于学习奖励机制的新算法 REMAP,通过引入偏好查询替代成员查询并利用符号观测表、统一和约束求解来缩小奖励机制的搜索空间,具有正确性和终止性保证。
- 具有交互作用的子集比较的鲁棒序数回归
基于鲁棒有序方法和不确定性集合的决策模型,学习决策者对子集间偏好的偏好预测方法及评估。
- 测量和控制排名聚合中的分裂问题
该研究将焦点集中在识别表达个体偏好差异的具争议性的议题上,通过分析各项分歧度量的特性、偏好不完备条件下的鲁棒性以及具争议性的控制和操纵算法,提高了我们对集体决策中如何量化分歧的理解。
- AAAI道德机器还是多数暴政?
本文通过分析群体中少数派意见的胜出比例等因素,探讨了基于个人偏好的聚合机制的公平性问题,并提出了随机专政和中位数等聚合机制作为替代方案。
- ICLR离线多目标强化学习扩展帕累托高效决策
本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下 - 基于前景理论的跨期选择中的投影偏差建模
本文提出了一种局限偏见(projection bias)嵌入的偏好模型 Pobe,用于在捆绑促销中准确预测用户的选择,分析用户的非线性和个性化偏见以及物品之间的相关性或折扣价格对用户选择的影响,并提出了四种捆绑策略。