May, 2023

价值引导数据过滤的跨域策略适应

TL;DR该研究提出了一种基于价值一致性的在线动态适应学习算法 —— 价值引导数据过滤算法(VGDF)。实验结果表明,与之前的方法相比,在不同领域的各种环境中,VGDF 算法在策略概括上表现更为优异。