关键词ai feedback
搜索结果 - 8
- ARES:交替强化学习和监督微调,通过多样化的 AI 反馈提升多模态链式思维推理PDF9 days ago
- 多目标强化学习从 AI 反馈PDF23 days ago
- 对于多样化任务和模型规模的鲁棒学习的对称强化学习损失PDFa month ago
- 对大型语言模型对齐的 AI 反馈的关键评估PDF4 months ago
- 通过 AI 反馈实现质量与多样性PDF8 months ago
- 利用自我博弈和从 AI 反馈中学习的上下文增强语言模型的协商技能PDFa year ago
- 通过人工智能反馈提高对比学习句子嵌入PDFa year ago
- 弥合断层:自然语言生成中融入(人类)反馈的调查PDFa year ago
Prev
Next