主题模型的强化学习
介绍了一种新的统计模型 —— 监督潜在狄利克雷分配(SLDA),应用变分方法处理难以计算的后验期望,解决回答类型的多样性并预测新文档的回答数值。与现代正则化回归以及无监督 LDA 分析相比,SLDA 有显著优势。
Mar, 2010
本文探索使用辅助任务来塑造潜变量分布的三种方式,并选择响应自编码为辅助任务,以获得更具行动性质的潜变量表示,从而支持端到端对话策略优化,并实现最先进的成功率。
Nov, 2020
基于强化学习算法的学习历史的监督预训练,通过与环境的交互,能够捕捉学习过程并在上下文中改善对新任务的处理。然而,现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法,通过预测行为嵌入来消除对行为数量的依赖,并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验,证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。
Dec, 2023
通过引入自然语言评论作为优化产品表示的一种方式,将旁路信息融入基于协同过滤的推荐系统可以提高其性能表现;本文提出两种不同类型的评论模型,包括基于神经网络的词袋专家模型和循环神经网络模型,并证明前者的模型灵活性表现出了更高的性能表现,超越了基于 LDA 的方法。
Jun, 2018
本文介绍一种使用强化学习进行共参照消解的方法,采用最大边际目标函数,使得在英文和中文 CoNLL 2012 共享任务上表现显著优于现有的技术水平。
Sep, 2016
该研究提出了一种新颖的潜在动作框架,将端到端会话代理的动作空间视为潜在变量,并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明,所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。
Feb, 2019
本文提出了一种用于神经主题建模的终身学习框架,可以连续处理文档集流并通过从多个来源的知识转移积累主题,以更好地处理稀疏数据,并通过新的选择性数据增强、共同训练和主题正则化方法来最小化灾难性遗忘,作者通过建模三个稀疏的文档集任务进行证明其提出的终身神经主题建模(LNTM)框架具有改良的表现。
Jun, 2020
本研究引入一种在线人气预测和追踪任务,作为强化学习在组合自然语言动作空间的基准任务,使用深度强化学习架构,通过双向 LSTM 建立子动作之间的依赖关系来提高建模价值函数的效果,并在不同实验配置和领域中表现出最佳性能并具有良好的泛化能力。
Jun, 2016
我们提出了一种新颖的方法,通过在潜在嵌入空间中定义目标,对大型语言模型(LLMs)进行训练。我们的方法利用强化学习(RL),将预训练的 LLM 作为环境。我们训练的嵌入对齐引导语言(EAGLE)代理程序通过迭代地引导 LLM 的生成,使其指向潜在嵌入空间的最佳区域,相对于某些预定义的准则。我们使用 MovieLens 25M 数据集展示了 EAGLE 代理程序的有效性,以满足潜在用户需求的内容间隙。我们还展示了使用状态相关动作集的最佳设计来提高 EAGLE 效率的好处。我们的工作为使用 LLMs 进行受控和基于实际的文本生成铺平了道路,确保与领域特定知识和数据表示的一致性。
May, 2024
本研究提出了一种使用深度神经网络预测 LDA 模型中潜在主题分布的方法,借鉴了迁移学习的思想,实现了在大大降低计算时间的同时取得较好的分类效果。
Aug, 2015