- AAAI基于用户反馈日志的多轮对话策略学习
本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。
- 强化学习交互学习时间轴摘要
这篇论文提出了一种基于强化学习的交互式时间轴摘要生成系统,利用复合奖励函数自动调整生成摘要的准确性、相干性和语言流畅性,避免个体用户的反馈,实现时间轴摘要生成的高准确性。
- 反馈类型对解释性互动学习的影响
本研究使用了 Explanatory Interactive Learning 方法中的 Gradient-weighted Class Activation Mapping 模型,比较了两种用户反馈类型对图像分类任务的影响,结果表明,指出 - 使用对比个性化的面部图像检索
本研究提出了一种利用用户反馈进行二元监督的面部图像检索方法,采用对比学习范例,通过在线优化损失函数进行个性化处理,实验证明该方法可以更快地收敛和提高推荐准确性,同时提供了用户友好的网页端界面,让用户有实时的面部图像检索体验。
- 大规模对话式人工智能中基于自我意识的反馈型自学习
本文探讨了基于马尔可夫的查询重写系统在大规模对话 AI 代理中的应用以及反馈对训练结果的影响,提出了一种超级位置法邻接矩阵来改进马尔可夫图的构造,并使用数据增强策略简化学习过程。实验表明,自我感知模型总体性能提高了 27.45%,相对缺陷减 - EMNLP走向可教授的推理系统:使用用户反馈的动态记忆进行持续系统改进
提出了一种可教的推理系统,利用用户反馈构建动态记忆,将其作为问题回答的上下文,以避免相似新情景中之前的错误。实验表明,该系统在不进行模型重训练的情况下,只需要对 25% 的训练示例进行反馈即可接近最优解,并且可以通过用户反馈不断改进性能。
- 利用复杂的模式特征实现交互式模式挖掘
本文讨论了如何通过用户反馈学习模式的质量函数,并提出了使用更复杂的直接从模式排名派生的特征来替代现有方法中的低级特征,以及如何将多样性约束纳入交互式挖掘系统中。实验结果表明,在参数选择和特征工程方面的优化会提高挖掘算法的性能。
- ACL基于用户反馈的摘录式问答中的赌博学习模拟
研究从用户反馈中学习抽取式问答,通过模拟反馈使用监督数据,并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进,并且可以使用现有数据集在新领域部署系统,而无需任何标注。
- ICLR利用用户反馈的在线学习,训练 X-to-Text 输入接口
本研究提出了一种基于用户反馈进行在线学习的算法 X2T,通过学习用户操作中的 backspaces 信号,对现有的默认接口进行微调,使得辅助打字应用可以逐步优化,提高用户的体验。研究结果表明,X2T 可以学习超越非自适应默认接口、个性化接口 - 教授机器人跨越功能表达动作空间
本文主要介绍了通过学习情感空间映射来实现机器人在情感任务中的表现,通过用户反馈的学习方式,实现深度学习每个情感的代价函数,并将其映射到情感空间上,从而可以将用户反馈用于学习所有情感,生成各种情感的轨迹并做出相应表现。本文提出的方法已在多个测 - AAAIInterscript:通过错误反馈进行脚本交互学习的数据集
本研究提出了一个名为 Interscript 的数据集,其中包含用户反馈的部署模型的数据,可以用于测试和调整在实际环境中使用的模型的性能,这可以在交互式学习中显着提高科技水平。
- KDD客户支持机器人中的上下文强化学习应用
本文讨论了使用上下文赌博机(CB)的微软虚拟代理的实现情况,包括基于神经 - 线性赌博机(NLB)的意图消岐和基于一组多臂赌博机(MAB)的上下文推荐。我们的解决方案已经落地生产并通过 A/B 测试证实了业务指标的改进,包括问题解决率相对增 - MM使用深度强化学习生成高质量的相关搜索查询建议
利用强化学习技术的深度学习模型预测用户下一个搜索词并依据长期会话反馈、语法相关性以及生成查询的自然度等奖励信号对高质量且多样化的相关搜索查询进行推荐。相对于基线监督模型,我们提出的方法在推荐的多样性、用户参与度和每个句子重复词的数量方面都有 - WWWELIXIR:通过用户反馈的解释学习,提高推荐模型
本研究探讨解释对于 AI 生成的推荐质量的贡献,提出了一种人机交互框架 ELIXIR,通过用户反馈对解释的学习获取用户的隐含偏好向量,最终实现基于图结构推荐系统的优化,实验结果表明该方法在提高电影和图书推荐方面相较于传统方法有显著提升。
- WWWFeedRec: 利用各种用户反馈的新闻推荐
为了提高新闻推荐的用户兴趣模型和模型训练的效果,我们提出了一种利用各种用户反馈的统一用户建模框架,并采用强到弱的注意力网络来提炼正负用户兴趣,以及采用多反馈模型训练框架来学习关注度感知的新闻推荐模型。
- ICLR交互式弱监督:学习用于数据标注的有用启发式方法
该研究论文展开了交互式弱监督学习框架的研究,该框架中,方法提议启发式方法并从用户每个被提议的启发式反馈中学习,其实验表明只需要少量的反馈迭代就可以训练模型达到高竞争的测试集性能,而不需要访问本文中使用的标签数据。
- 利用人类反馈学习可解释的基于概念的模型
提出了一种透明的机器学习模型学习方法,使用用户的反馈来标记概念特征,从而生成透明的概念定义,以提高模型的可解释性和预测性能。
- 事件序列数据的视觉因果分析
本文介绍了一种用于从事件序列数据中恢复因果关系的可视化分析方法,它已将 Hawkes 过程的 Granger 因果分析算法扩展到包括用户反馈的因果模型细化,并具有一组新颖的可视化和交互。通过一系列的定量和定性评估以不同的应用领域中的案例研究 - 通过知识图谱增强的强化学习交互式推荐系统
本研究探讨了在交互式推荐系统中,如何使用知识图谱来解决强化学习中的样本效率问题以及用户反馈稀疏问题,具体包括引导候选项选择,增强项和用户状态的表示和传递用户偏好。实验结果表明,该方法具有显著的改进优势。
- SIGIR一种深度循环生存模型用于无偏排序
本文提出了一种新的深度循环生存排序(DRSR)框架,以解决信息检索中的位置偏见问题,此框架利用循环神经网络模型上下文信息并综合采用生存分析和概率链规则来恢复一个用户各种行为的无偏联合概率,实现对用户的一系列行为进行关联建模。实验结果表明,相