BriefGPT.xyz
大模型
Ask
alpha
关键词
fine-tune large language models
搜索结果 - 2
Mallows-DPO: 用偏好离散来优化您的 LLM
Mallows-DPO 是一种新方法,利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO),从而提高强化学习与人类反馈的性能,适用于各类基准任务,如合成赌徒选择、可控生成和对话,同时保持良好的泛化能力。
PDF
a month ago
EMNLP
运用语言模型模拟生成与评估 K-12 学生的测试:基于句子阅读效率的案例研究
通过对大规模语言模型进行微调,以模拟先前学生对未见过的测试项目的响应,生成具有高质量的平行测试,并且通过对成千上万名 K-12 学生进行评估,证明生成的测试与人工专家编写的标准测试的难度和可靠性高度相关。
PDF
9 months ago
Prev
Next