神经响应生成的反事实离线训练
本文提出了一种数据增强方法以及筛选技术来增加开放域对话系统数据集中不同语义的高质量回复,通过对事实的推理来推断出具有不同语义的回复,并过滤掉有害的增强回复,实验结果表明,该方法可以在多个下游任务中胜过竞争基线。
Oct, 2022
本文提出了 NeuroCounterfactuals 方法,通过松散的对比事实产生更大规模的编辑,从而使得生成的文本包含语言多样性,同时与原始文档相似,使得训练数据增强在情感分类方面取得了良好的效果。
Oct, 2022
本研究提出了反事实推理模型,在学习少量反事实样本的基础上,通过生成对于每个正面事实样本的代表性反事实样本,并使用回顾模块根据对比反事实和正事实样本来检查模型预测,从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。
Jun, 2021
本研究旨在探索如何创建关于领域知识、语义多样性和可回答性等方面的反事实数据来改善深度学习模型的鲁棒性,其中使用的技术包括数据增强,以及 “Retrieve-Generate-Filter” 模型。实验表明,使用该技术能够有效提高模型对于本地扰动的鲁棒性和在阅读理解和开放领域问答中的性能。
Oct, 2021
本文提出一种双向推理的生成模型,通过向基础的编码解码模型添加后向推理步骤,推动模型产生更多信息丰富、连贯的回复,实现了双向优化,最终提升了响应质量,成为当前响应质量最好的方法之一。
Apr, 2021
本文提出了一种采用动态规划和固定点求解的方法,用以控制训练中的数据采样分布并改善数据利用效率,在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。
Jul, 2023
本论文提出了一种新颖而简单的方法,将问题形式化为域转移问题,使用 StarGAN 等对抗性学习技术来生成 RL 代理的反事实解释,证明该方法在分析不同代理机器人的学习策略时表现最佳。
Feb, 2023