Transformer 语言模型中的负面情感处理
本文对深度学习在自然语言处理(NLP)方面的最新应用进行了调查研究,发现 transformer-based language models 在检测受控自然语言片段的有效推理方面表现出明显的过拟合问题,未能获取主导推理的逻辑原则。
Nov, 2022
本文探讨了一种新的自然语言推理分类任务的方式来发现实际上发生的事件,具体涉及否定语态下的肯定解释。实验结果表明,目前现有的自然语言推理语料库训练出来的最先进的 Transformer 并不能很好地揭示这种肯定解释,而 T5 Transformer 在从否定语态生成肯定解释的任务中表现不如人类。
May, 2022
通过使用描述逻辑知识库构建一个合成的自然语言问答数据集,本研究评估了基于 transformer 的模型在推理能力、合成语境和知识库相关的问题上的表现,并展示了模型在训练过程中对不同推理深度的泛化能力。
Nov, 2023
本研究通过提出一种新的方法构建具有挑战性的自然语言可满足性问题数据集,以研究 transformer 模型的推理能力,发现这些模型在解决困难的 NLSat 问题方面表现出非常强的能力,但仍然存在限制,包括需要选取适当的训练数据才能适用于更大的问题和限制其推理能力的问题。
Dec, 2021
本文以极性为案例,使用预训练的 Transformer 模型(BERT 和 GPT-2)探讨了负极性项目(特别是英语中的 'any')的极性,并证明了语言模型派生的指标比语言学理论预测更符合心理语言学实验数据。这可以更充分地评估语言模型的性能,并使用语言模型来发现自然语言语法方面的新见解。该研究有助于加强心理语言学实验和语言模型实验之间的紧密联系。
Sep, 2021
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
Jun, 2023
本文研究视觉 - 语言建模,通过创建新的多模态任务和分析预训练数据的质量,发现预训练数据的质量和多模态预训练目标对模型的性能影响重要。
Oct, 2022
本研究初步探讨了生成 Transformer 模型从给定前提中演绎推理的能力,发现其性能与训练设置和参数规模有显著差异,而且推理链的长度一般不会影响性能,除了 OpenAI GPT-3 和 GPT-3.5 模型。研究考虑了大小从 1.17 亿到 1750 亿参数的多种变压器解码器模型。
May, 2023
本文提出了一种新的语法任务集,专注于矛盾检测,并评估了递归模型和 BERT 网络。虽然 BERT 在大多数逻辑形式上具有更好的泛化效果,但在处理计数算子时仍有待改进,同时表明该语法任务可以在不同的语言中实现并实现跨语言传递学习。
May, 2019
该研究介绍了 NeQA 数据集,发现语言模型的表现随着模型大小、计算能力或数据的提升而呈现出正比例尺度增长的趋势。然而,在 NeQA 数据集中,语言模型在对于否定问题的解答上出现了相反的结果。该研究发现,这种现象的解答依赖于两个子任务:问题回答和否定理解。研究表明:问题回答任务呈线性比例尺度增长趋势,而否定理解任务呈 Sigmoid 函数形状的比例尺度增长趋势,并由这两个趋势的组成,得出了 NeQA 的最终缩放趋势。
May, 2023