Feature2Vec:人类属性知识的分布语义建模
该论文探索了在大型语言模型中编辑概念性知识的能力,通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明,虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义,但也有可能扭曲大型语言模型中相关的实例化知识,导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。
Mar, 2024
通过大量的神经语言学研究,我们引入了一个新的基于模型的度量标准,即组合度分数,用于量化句子理解过程中的意义组合程度。实验结果表明,这个度量标准与与词频、结构处理和对词语的一般敏感性相关联,提示了人类句子理解过程中意义组合的多方面性。
Mar, 2024
我们提出了 ConcEPT,即概念增强的预训练语言模型,将概念知识引入 PLMs,通过预测预训练上下文中提及实体的概念来提高模型性能,并通过实验验证了该模型在实体类型等任务中改善了概念知识的有效性。
Jan, 2024
该论文比较人类和 ChatGPT(GPT-3.5 和 GPT-4)在各种词汇概念特征或维度上的词汇概念表示,结果表明 LLM 可以在某些抽象维度上表现得与人类相似,但在感官和运动领域,GPT-3.5 表现较弱,而 GPT-4 在这方面有了显著进展,但仍然存在一些不足。此外,研究还发现,GPT-4 的进步主要源于其在视觉领域的训练。研究还发现,某些概念表示的方面似乎与感官能力相互独立,但其他方面似乎需要它们。
May, 2023
本文系统研究了 scalar adverbs 这一类词在 BERT,RoBERTa,GPT-2 和 GPT-3 预训练语言模型中的表现,并发现虽然这些模型对逻辑含义的理解有一定的表现,但与人类的表现还有很大差距。
May, 2023
本研究利用大型语言模型(LLMs)的人工神经元研究人类情感推断机制,发现 LLMs 基于情感知识的概念结构与人类行为中的离散情感的结构相似,且它基于 14 个概念属性的情感推断依赖程度与人类依赖程度相近,这为情感知识在大型语言模型中的出现提供了直接证据,并建议其对离散情感推断至关重要。
Feb, 2023
本研究提出了 COPEN,作为探查预训练语言模型概念知识的评估基准,并通过三项任务对 PLMs 的概念知识进行综合评估,结果表明现有的 PLMs 系统性缺乏概念知识并受到各种虚假相关性的影响。
Nov, 2022
本论文通过 COMPS 测试不同 PLMs 的语义概念属性及其推理能力,结果表明 PLMs 在基于知识表达的相关概念中表现相对困难且缺乏鲁棒性,从而对 PLMs 在正确推理方面的能力提出重要问题。
Oct, 2022