- EMNLP双向 Transformer:(西班牙语)上下文中的多义词的表示:新的词汇资源和实证分析
通过比较多种 BERT-based 语言模型中的语境化词嵌入,我们评估了西班牙语歧义名词的语义表达。我们开发了一个新颖的句子数据集,并收集了人类的相关性判断。结果显示,这些语言模型的语义表达在人类判断中捕捉到一些差异,但不能达到人类水平。与 - 可聚合的上下文化词向量用于有效短语挖掘
当目标短语位于噪音上下文中时,单个密集向量不足以进行有效的短语检索;因此,我们提出了代表多个子句、连续词语片段的概念,每个片段都有自己的密集向量,并引入了一种修改后的对比损失函数用于鼓励词嵌入具备此属性,并展示了该方法在短语挖掘中的改进效果 - ACLProMap: 通过语言模型启发的有效双语词典归纳
ProMap 是一种创新的双语词汇感应方法,利用预训练的多语言模型,在富资源语言和低资源语言中均实现了最先进的结果,尤其在少样本情况下表现出强大的性能,为低资源语言翻译提供了有价值的工具。
- 通过 L2 范数打折解决高频词余弦相似度低估问题
本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。
- BERTTM:利用预训练语言模型的上下文化单词嵌入来进行神经主题建模
本研究开发了一种新型的神经主题模型,结合了来自预先训练的语言模型 BERT 的上下文化单词嵌入,无需使用任何词袋信息即可推断文档的主题分布,实验表明该模型在文档分类和主题连贯度指标方面优于现有主题模型,并可处理来自新到达文档的未见单词。
- 利用自我监督方法增强语义理解,用于抽象对话摘要
本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务,包括抽象概括,并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型,并在最近引入的 SAMSum 语料库中经 - 上下文中的迷失?关于上下文化词向量的意义差异
揭示了上下文化单词嵌入的一些特征,包括上下文中单词意思的变化程度,单词在不同上下文中的一致性,以及单词位置偏差的影响,并提出一种减轻这种偏差的简单方法。
- HistBERT:用于历时词汇语义分析的预训练语言模型
研究历史语料库数据对语言模型 BERT 训练的影响,从而提出一种预先训练的基于 HistBERT 的语言模型,并比较它与原始 BERT 在单词相似度和语义转化分析方面的表现,该工作强调,上下文语言嵌入在历史语言分析中的效果取决于输入文本的时 - ACLRAW-C:上下文中模糊词的相关性(英语新词汇资源)
该论文介绍了 RAW-C,一种对 112 个上下文中的模棱两可的单词进行分级人类相关性判断的数据集,以及来自 BERT 和 ELMo 的情境化词嵌入的余弦距离的度量与人类判断的相关性。同时,这份论文提出了心理语言学的理论与词汇语义计算模型之 - ICLR在双曲空间中探究 BERT
本研究使用 Poincare 探针将 contextualized word embeddings 映射到具有明确定义层次结构的 Poincare 子空间中,发现在句法子空间中我们的探针比欧几里德探针更好地恢复了树结构,同时在情感子空间中, - 自训练与自监督学习相结合的非监督式病态语检测
本文提出了一种无监督学习的方法用于发现语言中的断续性,该方法使用廉价的无标注文本语料库,并借鉴了 Noisy Student Training 和上下文化词嵌入的思路,在英语 Switchboard 测试集上达到了与有监督系统竞争的效果。
- COLING揭示背景刻板印象:测量和减轻 BERT 的性别偏见
研究比较了英语和德语中职业名称和性别指示目标词之间的关联性,并使用 Bert 模型来检测性别偏见,结果表明非常适合英语,但不适合具有丰富的形态和性别标记的德语等语言,本文强调探究偏见和减轻技术的重要性,特别是在大规模,多语言的语言模型中。
- EMNLPVCDM: 利用变分双编码和深度上下文化单词表示来改进定义建模
本研究提出了一种生成模型来处理定义建模任务,并使用变分推断进行估计,并利用上下文化的词嵌入来提高性能,其在四个基准测试中均取得了最先进的表现。
- EMNLP词类灵活性:一种深度上下文化的方法
本文提出了一种基于上下文化词向量探索词类灵活性的方法,并应用于 37 种语言,发现由于一定的上下文语境影响,单词在不同的语法类别中产生语义的位移现象,这支持了词类灵活性是一个具有方向性的过程的观点。
- AAAI通过 BERT 模型进行集成,模拟社交媒体会话文本中的披露和支持
本文介绍了一个预测性集成模型,利用 RoBERTa 和 ALBERT 软件对 CL-Aff 数据集中 Reddit 评论进行了分析,并展示了比基础模型更好的性能,并揭示出更深刻的数据集特征。
- 利用自训练自注意力模型提高失流畅侦测
本研究证明自训练是一种半监督技术,它可以提高基于自我关注的解析器在断续检测方面的性能,并且展示了模型集成进一步提高断续检测性能的结果。
- MM基于神经网络的篇章关系标记检测方法
本研究使用了数据驱动方法和基于远程监督的神经网络来检测文章中的话语关系信号,开发了一个名为 “Delta s” 的衡量信号强度的度量,该度量通过上下文词嵌入表示每个单词对于关系识别的积极或消极贡献,通过对英文语料的分析,研究了该度量的可靠性 - BERT 作为一个分布式语义模型的评估
本文研究了语境化单词嵌入,并集中讨论了 BERT 这一深度神经网络,该网络产生了语境化的单词嵌入并在多个语义任务中创下了最好的记录,并研究了其嵌入空间的语义一致性。该文章表明,BERT 具有一定的语义一致性,但并未完全符合语义向量空间的自然 - BERT 可以有任何意义吗?使用上下文嵌入进行可解释的词义消歧
介绍一种利用最近邻分类法和上下文表示词嵌入进行词义消歧的简单而有效的方法,并比较不同的上下文表示模型在该任务上的表现。使用标准的词义消歧数据集表明,在这项任务上,与现有技术相比,已取得了改进。另外还展示了预训练的 BERT 模型能够将多义词 - EMNLP一种改进的神经网络基线用于时间关系提取
本研究提出了一种新的神经系统,通过采用语境化单词嵌入,一个时间常识知识库的连体编码器和整数线性规划的全局推理,在 MATRES 数据集上进行训练,取得了一个基准数据集上绝对精度提高约 10%(25%的误差降低)的结果。我们认为,这种新方法可