- 基于 LLM 的优化器中方向反馈的重要性
使用大型语言模型作为交互式优化器,通过自然语言和数值反馈在文本空间中解决最大化问题的潜力进行研究。为了实现可靠的改进,我们设计了一种新的基于大型语言模型的优化器,它从历史优化跟踪中综合定向反馈。经验证明,与现有技术相比,我们的基于大型语言模 - AAAI利用混合自然语言反馈对语言模型进行微调的 LaFFi
该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。
- See, Say, and Segment: 教导 LMMs 克服错误先决条件
通过级联和联合训练方法,我们提出了一种大型多模态模型(LMMs)的解决方案,可以在图像中检测物体是否存在,并通过提供自然语言反馈和修正查询中的语义错误来改善物体分割的结果。此外,我们还引入了一个新的虚假前提修正基准数据集,通过在虚假前提条件 - 通过自然语言反馈指导大型视觉语言模型与人类进行对齐和交互
我们提出了 DRESS,一个大型视觉语言模型(LVLM),通过解决当前 LVLM 的两个关键限制,创新地利用来自大型语言模型的自然语言反馈(NLF)来增强其对齐和交互。
- MINT: 使用工具和语言反馈评估多轮交互中的 LLMs
通过使用工具和自然语言反馈,MINT 基准测试评估了大型语言模型在解决具有多回合交互的任务时的能力,并从 20 个开源和闭源的语言模型分析中发现,在工具交互和自然语言反馈的情况下,LLMs 的性能有所提升。
- SYNDICOM: 通过错误注入与自然语言反馈提升对话常识
通过引入 SYNDICOM 方法来提高对话回复生成中的常识推理,该方法包括基于知识图谱创建的常识对话数据集和预测自然语言反馈的模型,以及在预测的自然语言反馈、无效回复和对话的条件下训练响应生成模型。SYNDICOM 在多项任务上相对于 Ch - ICCV姿态修正:用自然语言纠正 3D 人体姿态
通过自然语言反馈修正三维人体姿势以及生成纠正的三维人体姿势的文本编辑方法。
- 让我教你:语言模型反馈的教学基础
该文介绍了一种基于教育学理念的自然语言反馈体系 (FELT),它可帮助优化自然语言生成模型 (LLMs) 的反馈设计,并提供了一个反馈内容分类系统。
- 系统层面的自然语言反馈
本文提出了一种通用框架,利用自然语言反馈来解锁系统级反馈的用处,并应用于搜索和对话系统的查询和响应生成中,本方法证明了系统级反馈与实例级反馈的结合带来了更多的收益,并强调了人类反馈对系统构建的重要性。
- ACLRL4F: 利用强化学习生成自然语言反馈以修复模型输出
本文提出了一种名为 RL4F 的多智能体协作框架,该框架使用强化学习训练评论生成器,使其能够优化 GPT-3 模型的性能,从而改进模型的输出效果,并在三个数据集上展示了平均提高了约 5% 的文本相似性度量。
- ACL学习模拟自然语言反馈进行交互式语义解析
提出了一种利用模拟的自然语言反馈来训练交互式语义解析器的任务和新颖的反馈评估器,证明该反馈模拟器可以在低数据集情况下,生成高质量的自然语言反馈来提高特定解析器的错误纠正能力。
- 通过自然语言反馈训练,改进代码生成
本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。
- 通过语言模型进行规划的具身推理
研究了大型语言模型在具身化场景下的规划能力,通过自然语言反馈的方式,提高对机器人控制场景的理解和指导完成任务的效果。
- ACL使用语言反馈进行语言模型训练
通过从自然语言反馈中学习,本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型,以获得人类水平的摘要能力。
- ACL通过自然语言交互纠正语义解析错误
该研究通过 NL-EDIT 模型演示自然语言反馈的交互过程中,对语义解析的一次修正可以将现有文本到 SQL 解析器的准确性提高 20%,并分析该模型的局限性并讨论改进和评估方向。
- AAAI从语言反馈中学习奖励
本研究采用自然语言反馈作为人工智能代理的学习信号,使用基于方面的情感分析将反馈分解为关于马尔可夫决策过程功能的情感。然后通过推理情感模型中的潜在奖励函数,来进行反向强化学习。实验表明本方法可以成功地从人的互动反馈中学习,并提供了关于自然语言 - 基于视觉搜索与文本反馈的模态无关注意力融合
本研究采用自然语言反馈的图像检索方法,结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型,在 Fashion IQ 和 CSS 数据集中比现有方法表现更优,同时在 Fashion200k 数据集中也取得竞争性表现。此外,我们还提出 - ACL与解析器对话:自然语言交互式文本到 SQL 转化与反馈
本文研究了使用自然语言反馈进行语义解析校正的任务,并构建了 SPLASH 数据集,证明这种反馈形式可以显著提高语义解析的准确性。
- EMNLP从自然语言监督中学习语义解析器
发展了一种从自然语言反馈中训练语义解析器的学习算法,为了使其直观可扩展性,该算法使用了用户纠正、会话记录等已有的自然语言数据作为监督信号,相对于使用严谨的逻辑形式或者特定答案的监督方法,可以接受那些并不熟悉语言形式的用户。研究还构建了一个自