fine-grained feedback | BriefGPT

关键词fine-grained feedback

搜索结果 - 6

纷扰的细粒度反馈：超越赞 / 踩 —— 面向文本到图像生成的挑战
通过对真实数据和合成偏好数据的实验，我们发现精细的反馈不一定总是优于粗略的反馈，根据模型选择、反馈类型和人类判断与计算解释的一致性的相互作用存在的复杂性，我们确定了精细反馈获取和利用的关键挑战，这促使我们重新评估其所假设的优势和实用性。我们
PDF8 days ago
基于策略的细粒度知识反馈用于幻觉缓解
在这篇论文中，我们介绍了一种基于在线强化学习的细粒度反馈方法（RLFH）来减轻大型语言模型在生成过程中产生的幻觉行为。通过将大模型的结果分解为原子事实，并提供语句级评估信号，RLFH 能够探索其内部知识的边界，并提供关于这些探索的在线、细粒
PDF14 days ago
ACL通过细粒度自我反思实现强化学习（RLRF）：对齐和改进 LLMs
通过利用细致的反馈基于详细准则来改进 LLMs 的核心能力，我们提出了一种新颖的框架：反思性反馈强化学习。RLRF 采用自我反思机制来系统地探索和改进 LLM 的回答，并通过与有希望的回答一起使用 RL 算法来微调模型。我们在 Just-E
PDF3 months ago
RCOT：通过逆向思路链来检测和纠正推理中的事实不一致性
本文提出了一种新方法 RCoT，通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性，以 fine-grained feedback 指导 LLMs 修改解决方案，从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明，RCo
PDFa year ago
使用元探索为交互式学生程序提供反馈
在这项工作中，我们表明，探索发现错误可以作为一种元探索问题，从而使我们能够构建一个有原则的目标来发现错误和一个用于优化此目标的算法，从而提供细粒度的反馈。该方法在一组来自交互式分配的超过 700K 真正的匿名学生程序上提供了 94.3％的反
PDF2 years ago
基于负面反馈的对话式产品搜索
本研究提出了一种基于非相关项驱动的产品搜索对话范式，该范式旨在收集和利用细粒度反馈，以在下一次迭代中显示更好的结果。我们提出了一种方面 - 价值可能性模型，用于结合正反馈和负反馈。实验结果表明，我们的模型比基于项级负反馈和不使用反馈的最先进
PDF5 years ago