SenteCon:利用词库学习人类可解释的语言表示
为了提高 NLP 任务中的语言理解能力,在考虑了文本的语言学知识(例如词性标注和情感极性)的基础上,提出了一种新的语言表示模型 SentiLARE,并使用标签感知掩蔽语言模型进行预训练,实验结果表明 SentiLARE 在各种情感分析任务上取得了最新的最佳性能。
Nov, 2019
该研究提出了 ConceptX 人在循环框架,用于解释深度语言模型中预训练隐藏表达空间,并提供自动生成的基于语言本体论的概念注释,以表示这些模型中学习到的隐含概念,从而帮助注释人员标记模型中的偏见。
Nov, 2022
使用语义组合性建模的透明、可解释和语言学动机策略,模拟词的上下文意义编码,并且与复杂神经结构下的黑盒模型相比,显示其与语言学动机模型在给定语义任务中的竞争力。
Dec, 2023
本文研究了词向量的解释问题,提出了一种算法可通过上下文信息和目标词语推断其意义,进而利用循环神经网络生成该词汇的定义,实现对词向量的直接解释。同时,作者提出了一个高质量的词汇上下文 - 定义数据集,用于词义消歧与定义建模。经实验测试,该方法在 BLEU 评分和人工评估测试中表现出卓越的性能。
Sep, 2018
本文综述了句子表示学习的各种方法,包括传统的和基于深度学习的技术,并对该领域的主要贡献和挑战进行了系统梳理,结论强调了句子表示学习在自然语言处理中的重要性和面临的挑战,并提出了未来研究方向和改进句子表示质量和效率的潜在途径。
May, 2023
本文提出了一个新颖的框架 ConceptX,利用聚类发现预训练语言模型中编码的潜在概念,并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解:i)学习表示中的潜在空间以不同的程度与不同的语言概念重叠,ii)模型中的较低层由词汇概念(例如,词缀)主导,而核心语言概念(例如,形态或句法关系)在中高层中更好地表示,iii)一些编码的概念具有多面性,无法用现有的人类定义概念充分说明。
Jun, 2022
本文通过引入稀疏表示的思想将 word embeddings 应用到 sentence embeddings 中,基于主题连贯性方法引入了一种新的、定量的自动化评估指标,并在电影对话数据集和 MS COCO 数据集的场景描述上观察到了 interpretability 的提高。
Sep, 2018
本文探讨了自然语言处理中的一项工作,基于 BERT 嵌入空间来评估英语单词的多义和同音词意义之间的相关性。发现使用 BERT 嵌入模型能够在意义表示上更加清晰地捕捉多义性和同音词意的潜在结构,具有潜在的应用价值。
Oct, 2020
本文提出一种将词嵌入、词表嵌入和注意力机制集成到卷积神经网络中进行情感分析的新方法,该方法在 SemEval'16 任务 4 数据集和 Stanford 情感树库上得到了比现有最先进系统更好的结果。
Oct, 2016