BriefGPT.xyz
Ask
alpha
关键词
importance resampling
搜索结果 - 2
ICLR
核度量学习:用于确定性强化学习策略的样本内离策略评估
在连续动作空间中,通过使用优化的核度量,通过样本内学习的离策略评估可以显著提高准确性。
PDF
a month ago
通过重要性重采样进行语言模型数据选择
本文介绍了一种基于重要性重采样的数据选择算法,该算法可以在减少特征空间的基础上从大型无标签数据集中选择与目标分布匹配的样本子集。在训练通用领域(例如维基百科)和特定领域的语言模型时,该算法能够显着提高模型的性能。
PDF
a year ago
Prev
Next