- 通过 LLM - 符号定理证明验证和改进自然语言解释
通过将大型语言模型(LLMs)与定理证明器(TPs)相结合,本文研究了自然语言解释的验证和改进,提出了一个名为 Explanation-Refiner 的神经符号框架,用于生成和形式化解释句子,并为自然语言推理(NLI)提供潜在的推理策略。 - COLINGChatGPT 对自然语言解释质量的评级如人类一样:但在哪些尺度上?
AI 的透明度和责任感的需求增加了,因为对 AI 决策背后的推理进行自然语言解释(NLE)对于澄清重要,但通过人的判断进行评估复杂且资源密集,由于主观性和对细粒度评分的需求。本研究探索了 ChatGPT 与人类评估之间的一致性,涵盖了二元、 - ExaRanker-Open:使用开源 LLMs 的 IR 合成解释
ExaRanker-Open 使用开源语言模型产生解释,通过数据增强方法不断加强神经排序器,在不同的数据集大小下持续提升信息检索模型的效果,并在研究中以 nDCG@10 点优于目标基准 0.6 点。
- 推荐的自然语言解释中的连贯性问题
提供自然语言解释对于非专业用户尤为有用,然而目前常用的评估方法未能充分捕捉解释和预测之间的连贯性,因此本文通过人工验证、自动连贯性评估方法和基于 Transformer 的新方法阐明了这个问题,并进行了实验评估,结果表明该方法明显提高了解释 - 面向可解释性策略模板的自然语言处理变换器
通过利用自然语言处理技术和大型语言模型(LLMs)的 Transformer,本文介绍了如何将深度强化学习 (DRL) 策略的部分转化为用户友好、类人的英文叙述,涉及到对策略模板的数学表达式进行解析、语义解释变量和结构、生成基于规则的主要解 - 大型语言模型中的语法错误解释
通过使用两步式流程,我们提出了一个用于语法错误解释的系统,该系统可以对每个语法错误提供一句解释,并通过分析 GPT-4 在语法错误解释方面的能力,提高了错误解释的准确性。我们的研究还评估了使用我们的系统处理德语和中文语法错误纠正数据的效果, - 利用自然语言解释提高自然语言推理的上下文学习鲁棒性
通过加上自然语言解释,人工智能模型在各种任务中有了显著提升,但在遇到对抗性输入时,效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性,并提出了 ChatGPT 的几个人工生成的自然语言 - EMNLP解释先翻译法:自动生成解释提升程序翻译的分析
利用自动生成的自然语言解释作为代码到代码翻译的中间步骤,通过三种解释类型和 19 种编程语言的研究,发现自然语言解释在零 - shot 情况下特别有效,平均提升了 12%。自然语言解释特别对于复杂程序表现出明显改进。发布了包含 19 种语言 - 大型语言模型协助人类验证真实性 -- 除非其错得令人信服
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
- 通过期望最大化推理生成医疗问答中的解释
提出了一种新的方法来为医疗问答系统预测的答案生成自然语言解释,通过提取医学教科书中的知识来增强解释的质量,实验证明了该方法在处理文本证据时的有效性。
- ACL具体情境下的自然语言解释
自然语言解释、预训练语言模型、情境感知的自然语言解释、提示工程方法、自动化评估分数是本论文研究的关键词和主题。
- ICCVUni-NLX: 统一视觉和视觉语言任务的文本解释
提出了 Uni-NLX,一个统一的框架,将所有自然语言解释任务整合到一个紧凑的多任务模型中,使用文本生成的统一训练目标。引入了两个新的 NLE 数据集:ImageNetX,一个包含 144K 个样本的数据集,用于解释 ImageNet 分类 - 利用 LLMs 解析竞技编程解决方案
本文提出自然语言解释和代码生成的联合任务用于解决竞技编程问题。通过实验结果表明,尽管在解决竞技级别编程问题方面表现不佳,但当前最先进的 LLMs 在描述和解释解决方案方面表现出强大的能力,进而提出解释生成方法学生成包含描述和分析的结构化解决 - 自动驾驶中解释细节对乘客的影响
本文研究了自然语言解释的详细程度对无人驾驶汽车中乘客的影响,结果显示,自然语言解释对提高乘客的感知安全和减轻焦虑情绪有类似的积极效果,但详细的解释会影响乘客希望掌控驾驶行为的意愿。
- 机器翻译可解释评估指标的研究
本概念论文介绍了可解释机器翻译指标的关键属性和目标,并提供了最新的基于生成模型的可解释性指标技术综合。同时,我们展望了下一代技术包括自然语言解释,并希望本文能够帮助促进和指导未来可解释评估指标的研究,同时有助于更好、更透明的机器翻译系统。
- 语言模型是否能教授弱智能体?通过心灵理论提升学生表现的教师解释
本文研究了大型语言模型在学生 - 教师框架中作为教师的潜力,探讨了教师在测试时干预学生推理和在特定学生个体上进行个性化解释的方法。
- ACLFLamE: 自然语言说明下的小样本学习
提出了一种基于 GPT-3 生成自然语言解释并使用 RoBERTa 进行微调的两阶段 Few-shot 学习框架 FLamE,可以显著提高自然语言推理的准确性,但生成的解释并不能很好地说明分类决策,并指出标签特定的提示在生成的解释中起着重要 - ACL自然语言解释中矛盾的对抗检测与缓解技术
本文应用外部知识库改进了现有的对自然语言解释中不一致性进行检测和缓解的方法,并通过将模型与外部背景知识相结合来减少先前高性能 NLE 模型存在的不一致性。
- 自然语言解释的忠实度测试
本文探讨评估自然语言解释(NLEs)忠实度的挑战性问题,提出了两个测试:第一个是插入导致反事实预测的原因的反事实输入编辑器,第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模 - 探索关系抽取中的自动扰动自然语言解释
本文研究了自然语言解释在提高模型的泛化能力和数据效率方面的有效性,并发现即使是完全被破坏的解释,也仍有助于提供额外的上下文空间,从而取得与标注解释相当的结果,但计算效率显著提高了 20-30 倍。