Mar, 2024

走向零数据、可控、自适应的对话系统

TL;DR将对话树搜索应用于可控对话系统,通过对话树来塑造强化学习代理的行为,发现对话树生成的合成数据能够在对话成功方面与使用人类数据训练的模型相媲美。