Dec, 2020

使用文本到文本转换和强化学习探索流畅的查询重构

TL;DR通过使用基于策略的RL算法和Query-reformulating text-to-text transformer(QRT5),重新定向查询并针对问题回答生成奖励获取的查询轨迹,从而使得下游中产生更好的答案,并通过不同的下游环境获取奖励信号(例如意向分类)。