EMNLPOct, 2023

对话链条思路精炼:注重常识的对话代理

TL;DR提出了一种知识蒸馏框架,利用大型语言模型作为不可靠的教师,并通过对齐过滤器选择性地提炼一致和有帮助的合理性,以实现对话语境中的多跳推理。进一步提出了 DOCTOR,一种可靠的 DialOgue Chain-of-ThOught Reasoner,为响应生成提供可靠的逻辑基础,通过广泛的实验表明,使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。