- 整合主观性的计算方法在同根词别选中的应用
处理同源数据涉及处理同义词,即在一种语言中描述相同概念的多个词。本文展示了利用二元特征矩阵可以表示包括所有同义词的整个数据集,使用 RAxML-NG 工具进行最大似然树推断可得到合理的树。建议不要事先选择同义词,而是包含所有同义词以表示同源 - 使用交错编码网络(ICE-NET)进行反义词与同义词的区分
基于 InterlaCed Encoder NETworks 的反义词与近义词的区分方法,在词汇语义分析和自动词汇资源构建中具有较好效果,相对其他研究在准确性上提升了 1.8% 的 F1-measure 得分。
- 话语的黏着力:利用认知偏差和计算语言学预测决策和同义词的使用
本研究利用认知心理学和信息系统研究来预测数字平台上用户参与和决策过程。通过使用自然语言处理技术和认知偏差研究的见解,我们研究用户与数字内容中的同义词的互动。通过综合用户调查,我们评估了这种模型预测用户参与的能力,发现准确代表核心思想的同义词 - 为丰富阿拉伯同义词而设计的基准测试和评分算法
本文提出了一种算法和数据集,用于从给定的单 / 多语言词汇表中提取模糊值超过特定阈值的新近义词,其中数据集由 3K 候选同义词和 500 个同义词组成。根据我们的评估,该算法表现得像语言学家,并且其模糊值与语言学家的提议值接近。
- 考虑同义词的哈萨克语文本文档相似度测量方法:扩展到 TF-IDF
本文提出了一种 TF-IDF 方法的扩展,其中考虑了同义词,实验结果表明该方法在测量哈萨克语文本文档相似性时非常有效。
- 提高作者归属度中的词频
本文介绍一种计算作者归属和相似文体任务中相对词频的简单方法,该方法采用与传统方法不同的规范化因子,即仅涉及相关令牌的总数,并使用词嵌入模型来确定语义背景,该方法的性能通常优于传统的基于最高频词的方法,差异在于输入设置。
- 同义词提取的当前趋势和方法:适用于阿拉伯语的潜在调适
本文介绍了四种通过使用翻译图形、词网、同义词构造、深度学习等方式,自动提取同义词的方法。此外,作者还对这些方法进行了比较和分析,并探讨了未来在阿拉伯语环境下进行同义词自动生成的潜在适配性。
- ACL同义词边缘化的生物医学实体表示
本文基于实体的同义词提出一种模型,通过模型候选选择和无须对超过 400k 个负样本进行显式预选择, 迭代更新不断提高负样本难度的方法来学习生物医学实体的表征。在四个不同的生物医学实体规范化数据集上,该模型 BioSyn 表现卓越,几乎达到每 - EMNLP通过中间相遇提升跨语言词嵌入
本研究中,我们提出了一种修改交叉语言同义词向中心点移动的方法,可通过最初的线性变换对两个不相交的单语向量空间进行对准来有效学习交叉语言词嵌入,并实现更好的交叉语言整合。同时,我们的实验结果表明该方法明显优于现有方法在单语和跨语言评估任务方面 - ACLExtrofitting: 用语义词典丰富词汇表示及其向量空间
本文提出了一种名为 extrofitting 的后处理方法,使用语义词典丰富单词表示和其向量空间,包括向所有单词向量上扩展 1 个或多个维度,填充代表值并将语义知识传输到这些扩展的维度。此外,采用线性判别分析进行向量空间映射,得到最终的词向 - ACLWatset: 从同义词图中自动归纳同义词集
本研究提出了一种基于图的方法,利用同义词词典和词嵌入诱导同义词集。首先,我们建立了一个从常见资源(例如 Wiktionary)中提取同义词的加权图。其次,我们应用词义归纳来处理有歧义的单词。最后,我们将有歧义输入图的已消除歧义版本聚类到同义 - 增强的双语评估助手
本研究通过在 Bilingual Evaluation Understudy(BLEU)评估技术上进行改进,提出了一种适应人类评估的评估技术,该技术可以考虑包括同义词和词序在内的变化,并且与现有的评估方法相比,有较好的改进和相关性。
- 类比、同义词、反义词和关联词的统一方法
本文提出基于语料库的机器学习算法作为识别类比、近义词、反义词和联系词的方法,并且验证了其有效性
- 图顶点之间的相似度度量
该研究介绍了一种相似度概念和其在有向图中的运用,并指出其可用于自动提取单语言词典中的同义词。
- ACL基于词汇共现网络的典型词语选择
本文介绍了一个针对词汇选择问题的解决方案:通过词汇共现网来表示单词上下文,从而选择最典型或最符合上下文的同义词。该实现在一个大型语料库上进行了训练和评估,结果表明包含二阶共现关系可以提高我们实现的词汇选择程序的性能。