胡萝卜与大棒:通过正面与负面反馈促使自我激励
构建对话系统(对激励用户采用积极生活方式改变的任务)需要一个能够有效地推断如何激励用户的系统。我们提出了 DIIT 框架,它能够从专家示范中学习和应用对话策略(自然语言归纳法则)。自然语言策略描述的自动化和人工评估表明,DIIR 发现的自然语言策略描述能够改善积极倾听技巧,减少主动给出建议,并促进更协作和不过于权威的回应,胜过各种示范利用方法。
Mar, 2024
本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言反馈信息结构和利用它进行强化学习的方法。
Sep, 2020
本研究介绍了一个基于正面心理学理论的积极重建框架。利用自然语言处理技术,包括转移学习、微调预训练网络和提示工程,我们展示了自动化工具在检测认知失真和积极重建两个任务上的有效性,从而为多语言积极重建做出了贡献。
May, 2024
使用真实的负反馈作为输入和训练目标,在网络广播的下一首推荐系统中,有助于减少训练时间约 60%,并提高测试准确性约 6%;同时,添加用户跳过作为额外输入还可以显著增加用户覆盖率并略微提高准确性。
Jun, 2024
使用基于 transformer 的自注意力架构来学习顺序音乐推荐中的隐式会话级信息,同时提出一项对比学习任务来纳入负面反馈,以促进正面命中和惩罚负面命中,并通过实验证明这种方法相比忽略负面用户反馈的基准架构具有一致的性能提升。
Sep, 2023
本文探讨现有的语言模型是否可以产生大量的实践材料来帮助生成特定上下文中标准的无益思维模式,并提出积极的重新构建建议。通过使用一个包含大约 10k 个例子的新数据集来训练和 / 或评估当前模型,我们发现现有模型已经可以帮助生成丰富的定制实践材料和假设,无需或最少额外模型训练。
Jul, 2023
通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集,本研究旨在增强大型语言模型的自检能力,从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中,使用 “Step CoT Check” 提示进行微调的模型表现更好,提供更精确的反馈,从而达到更高的正确率。
Feb, 2024
Motif 是一种基于大型语言模型(LLM)的方法,通过最大化内在奖励来训练代理程序,实现从先验知识中提取环境决策并探索复杂环境的能力,在挑战性的 NetHack 游戏中取得了优异表现并在无需演示的任务上取得了突破。
Sep, 2023
通过构建一个大规模的、可控制的多模态反馈合成(CMFeed)数据集,我们提出了一个可控制的反馈合成系统,该系统能够生成文本和图像输入的感情控制反馈,通过使用 transformer 和 Faster R-CNN 网络提取文本和图像特征,并结合它们来生成反馈;该系统还通过基于排名的度量标准实施相似性模块来评估反馈的相关性,并使用解释性技术分析在生成无控制和可控制的反馈过程中文本和图像特征的贡献。
Feb, 2024