BriefGPT.xyz
Ask
alpha
关键词
variance control
搜索结果 - 3
通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估
本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。
PDF
3 years ago
ICLR
上下文类别序列生成的自适应相关蒙特卡罗方法
该研究提出了一种针对分类序列生成的策略梯度估计器 —— 基于相关性蒙特卡洛树的滚动策略梯度估计器,该方法通过生成一组相关的蒙特卡洛树来控制方差,从而有效地降低了梯度方差,同时可以缩短大词汇场景下分类的生成成本。
PDF
5 years ago
ACL
无监督意见摘要作为抄袭评论生成
本研究提出了一种基于变分自编码器的生成模型,可以在无监督学习的条件下,通过控制输入文本的变异程度,生成简明扼要、持有共识观点的评论摘要。
PDF
5 years ago
Prev
Next