EMNLPJul, 2017
基于确定性日志的旁路反事实学习:统计机器翻译案例研究
Counterfactual Learning from Bandit Feedback under Deterministic Logging: A Case Study in Statistical Machine Translation
Carolin Lawrence, Artem Sokolov, Stefan Riezler
TL;DR本文解决了在风险规避商业语言翻译模型确定性记录历史性翻译,并使用这些记录进行反事实学习过程中存在的问题,实现了从确定性 bandit 日志中进行反事实学习并取得了 2 BLEU 点的提高。