ACLMay, 2018

无需平行数据的有礼貌对话生成

TL;DR本文提出了三个用弱监督模型生成有礼貌或粗鲁对话响应的模型,分别是混合模型(Fusion)、标签微调模型(LFT)和强化学习模型(Polite-RL),并且这三个模型可以在没有平行数据的情况下执行。同时,本研究还比较了两种基于检索的有礼貌的对话模型,通过人工评估,结果表明 LFT 和 Polite-RL 模型可以显著地产生更有礼貌的响应,同时又不会牺牲对话质量。