Oct, 2018

发现通用主动学习策略

TL;DR该研究提出了一个通用的方法来发现可以从数据中转移的主动学习策略,通过将注释过程形式化为马尔可夫决策过程,设计出通用的状态和动作空间,并引入了一个新的奖励函数,该函数可以准确地模拟最小化注释成本的主动学习目标。然后,使用强化学习来寻找最优的主动学习策略,并在多个不相关的领域对学习后的策略进行了评估,表明它们始终优于现有技术基线。