BriefGPT.xyz
Ask
alpha
关键词
unsupervised language models
搜索结果 - 3
直接优化偏好:你的语言模型其实是一个暗地里的奖励模型
本文提出了一种称为 DPO(Direct Preference Optimization)的算法来解决无监督语言模型中的可控性问题,并在实验中表明,相较于传统的 RLHF 方法,DPO 不仅表现更好,而且更加稳定和简单。
PDF
a year ago
ACL
生成针对在线仇恨言论的反叙事:数据与策略
本研究旨在有效收集应对仇恨言论的响应,利用大规模的无监督语言模型生成银标注数据,并采用最佳注释策略 / 神经网络架构来进行专家验证 / 后期编辑。
PDF
4 years ago
AAAI
低资源自然语言处理遇上无监督语言模型:元预训练再元学习用于少样本文本分类
使用元学习和无监督语言模型解决数据不足或需要适应未知分类的文本分类难题,并在情感分类数据集上表现出最先进的性能,因此预训练可能是更多 NLP 任务的少样本学习的有前途的解决方案。
PDF
5 years ago
Prev
Next