- COLINGLeBenchmark 对法语句法的学习
该研究报告了一系列实验证明,LeBenchmark 这个经过预训练的法语口语模型,可以通过测验其各个表示层的句法信息,从而证明它已经学到了一些句法信息。句法信息更容易从网络的中间层中提取,之后观察到了一个非常明显的降低。
- ChatGPT 掌握多少个单词?答案是 ChatWords
ChatGPT 的词表知识和 AI 工具的潜在应用进行了评估,发现 ChatGPT 在词典和《堂吉诃德》中只能识别 80%的词汇,其中一些还有错误的意义。
- 符号出现作为人际情境跨越学习:组合词汇知识的出现
本文提出了一种计算模型,该模型通过 Metropolis-Hastings 命名游戏和跨情景学习,使代理之间的组合性出现,并使语词知识生成,从而实现了类别形成和交际式通信。
- ACL促进中文有害语言的细粒度检测:分层分类法、资源和基准
本文介绍了一种精细检测中文毒性语言的方法,包括构建一个监控毒性框架、建立 ToxiCN 数据集、构建侮辱词汇表等。实验证明了这种方法的有效性,并对结果进行了系统定量和定性分析。
- ACL基于知识的词义消歧的语义专业化
本文提出了一种基于词汇知识的语境化嵌入模型用于词义消岐,将相关语义的词义和上下文靠近,将不相关的远离,用 Attract-Repel 目标函数和自训练目标函数对嵌入进行调整,实现了在知识为基础的词义消岐方面的最新前沿成果。
- 整合形式和含义:一种用于声学词嵌入的多任务学习模型
本文提出一种结合自顶向下词汇知识的多任务学习模型,通过学习将声学输入与编码高级别信息(例如单词语义)的词汇表示相映射,从而提高了嵌入空间的可区分性,并使模型更好地分离了词汇类别。
- ACL神经会话生成的词汇知识内化
通过内部化知识的方式,将词汇知识融入神经对话模型中,以应对因词汇知识规模庞大而带来的挑战,并采用对比学习方法创建了一个基于弱监督自 Wikipedia 挖掘的有效的标记级别的词汇知识检索器,证明了该方法在各种数据集和多元化模型结构上的有效性 - EMNLP将动态词典加入 BERT 用于序列标记
本文提出了 DyLex:一种适用于基于 BERT 的序列标注任务的插件词库融合方法,避免了大规模动态词库的噪声和更新问题,采用了无关单词的标签嵌入和监督词库去噪方法,并引入基于列的注意力机制来保证该框架的可插入性。实验结果表明,该框架即使与 - 针对词级语义相似性的无监督预训练模型专业化
本研究将外部词汇知识与 BERT 模型的多任务学习相结合,提出了一种 “词汇知情” 的 BERT(LIBERT)模型,比起原始 BERT 在多项语言任务和词汇简化任务中均有显著提高。
- 一种确定性的桥接指代消解算法
本文介绍了一种新的基于词向量组合的确定性方法来解决代词消解的问题,结果显示其比其他最好的系统方法更加有效。
- ACL用需要简单词汇推理的句子破解 NLI 系统
我们创建了一个新的 NLI 测试集,展示了当前最先进模型在需要词汇和世界知识的推理方面存在的不足。这些新的例子比 SNLI 测试集更简单,包含的句子与训练集中的句子最多只相差一个单词。然而,对于在 SNLI 上训练的系统,在新的测试集上的表 - 利用语义桥梁学习罕见词汇的表示
本文提出一种方法学习语言的词汇,并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在 Rare Word Similarity dataset 上表现出 10% 的性能提升。