May, 2023

通过学习不相似性策略缓解语言模型中的近似记忆

TL;DR提出了一种利用强化学习(PPO)的框架,通过负相似度评分来针对近似记忆进行微调,有效地缓解了大型语言模型(LLMs)中的近似记忆问题,在保持生成样本的连贯性和流畅性的同时,具有鲁棒性,并且可以适应各种环境和情况。