FLAN-T5 中的语义特征验证
该研究通过比较人类和大型语言模型(LLMs)之间的推理判断的共性和差异,以及对三个类别(NLI、contextual QA 和 rationales)的多个数据集进行评估,揭示了 LLMs 在复杂推理环境中的多步推理上的优势和人类在简单推理方面的优势,并引入了一种经过精细调整的 Flan-T5 模型来提高自洽性,在三个多项选择问答数据集上平均提高了 6% 的性能。
Feb, 2024
本文提出一个过程,用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象,最终发现编码器最适合在语法 - 语义界面上支持推理,而不是需要世界知识的指代消解。
Apr, 2018
研究调查了最近的生成式大型语言模型(如 GPT 系列和 Flan-T5)在本体对齐中的适用性,以识别本体之间的概念等价映射。初步发现表明,通过精心设计的框架和提示,LLMs 具有超越现有本体对齐系统(如 BERTMap)的潜力。
Sep, 2023
该论文提出了一个连接的系统,包括三个同构神经语义匹配模型,用于联合进行文献检索、句子选择和索证,以进行事实提取和验证。实验结果表明,该神经语义匹配方法在所有证据检索指标上都显著超越了常见的 TF-IDF 和编码器模型,并通过提供内部语义关联得分和词汇网特征等方法,改进了 NLI 模型的性能,从而在 FEVER 测试集上取得了最优结果。
Nov, 2018
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型,根据我们的简单评估方法,我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。
Nov, 2023
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
通过研究使用大型语言模型(LLMs)探索人工神经处理和语言理解之间相似性的因素,我们发现随着 LLMs 在基准任务上性能的提高,它们不仅在预测 LLM 嵌入的神经相应性时表现出更高的脑部相似性,而且它们的分层特征提取路径与大脑的映射更为密切,并且使用较少的层进行相同的编码。此外,我们还比较了不同 LLMs 的特征提取路径,发现高性能模型在层次化处理机制方面更多地趋同。最后,我们展示了上下文信息在提高模型性能和与大脑相似性方面的重要性,并揭示了大脑和 LLMs 语言处理的融合特点,为开发更加与人类认知处理密切相关的模型提供了新方向。
Jan, 2024
研究表明,利用大型语言模型可以高准确度地区分人工智能生成的文本和人类编写的文本,尤其在语义方面会更加有帮助,而句法方面还有改进的空间。
Feb, 2024