- 关注偏差:针对上下文语言模型的偏差检测方法的关键回顾
本文为了解决公开领域语言模型中偏见检测的问题,就语境化语言模型偏见检测方法和静态单词嵌入偏见检测方法进行了严谨的分析和比较,发现了实现上的一些决策或错误对检测结果可能产生显著的影响,并提出了未来偏见检测方法更好、更健壮、更一致的方向。
- 基于子空间的预训练词嵌入空间集合运算
本研究提出了一种利用预训练词向量空间中的子空间进行集合运算的新方法,并在 Text Concept Set Retrieval 和 Semantic Textual Similarity 任务中进行了实验证明了该方法的有效性。
- emojiSpace:表情符号的空间表示
研究人员创建了一个综合词语和表情符号嵌入模型,在 Twitter 数据集上进行情感分析比较,发现其在表现上胜过其他预训练嵌入模型。
- 社会科学的词嵌入:跨学科调查
研究机器学习模型,学习低维表示模式,将词嵌入技术应用于人类行为挖掘,探讨其优势和趋势,并警示相似性度量常常在单独层面返回一致结果,但在聚合层面则有可能产生不同结果。
- BERT 和 GPT-2 神经网络架构迁移对金融情感分析的敏感性分析
本文研究了利用预训练模型进行微调时,模型的表现和参数的敏感性,通过实验发现 BERT 模型对于微调的随机性十分敏感,而 GPT-2 则更加稳定,同时也发现 GPT-2 和 BERT 的前几层包含了重要的单词模式信息需要进行保留。
- 使用 SememeWSD 和同义词集进行中文词义嵌入
本文提出 SememeWSD Synonym(SWSDS)模型,通过使用 OpenHowNet 中的同义词集和词义消歧(WSD)来为多义词的每个意义指定不同的向量,验证结果表明与 Gensim 的 wmdistance 方法相比,SWSDS - COLINGMANorm: 使用拉丁文字写成的摩洛哥阿拉伯方言的规范化字典
本研究利用基于 YouTube 评论语料库的词嵌入模型及提供了标准规范形式的摩洛哥阿拉伯语词典 MANorm,实现了摩洛哥阿拉伯语方言的规范化,证明其有效性。
- 量子自然语言处理的近期进展
本研究探讨了量子计算在自然语言处理中应用的多种方法,包括基于词的分类、基于词嵌入向量的支持向量机分类以及基于二元模型的概率方法,并评估了实验结果。
- 基于字符串的方法推动生物医学句子相似度技术发展:可重复的实验研究
本文介绍了一个基于单一软件平台的最大的、可再现的生物医学句子相似度实验,目的是解决当前方法无法评估的可重复性问题,评估多种未被探索过的句子相似度方法和一个未被探索的基准,评估预处理阶段和命名实体识别工具对性能的影响,并提出了一个新的字符聚合 - SemEval2022 任务 1 中的 IRB-NLP:探索词语和它们的语义表示之间的关系
本篇论文研究了词与其描述或嵌入之间的关系,探索了定义建模和反向字典两个学习任务之间的关系,旨在探讨词语及其语义表示之间的关系,并在 CODWOE 数据集上展示了定义建模和反向字典任务系统的设计及实验结果。
- 使用依赖句法分析在分布语义学中进行少样本学习
本文探讨在少样本学习中使用依存分析信息的新颖想法,利用基于依存关系的词嵌入模型作为背景空间进行学习,通过引入增强依存分析的两种少样本学习方法升级加性基线模型。
- 词向量能够捕捉词语的节奏相似性
本文探究了诸如 Word2Vec 和 GloVe 等词嵌入系统在捕捉单词韵律相似性方面的实用性。结果显示,这些嵌入分配给押韵单词的向量更相似。同时也揭示了相比于 Word2Vec,GloVe 在这方面表现相对更好。文章还提出了一种首次量化单 - 法律词向量评估数据集:以中国律法典籍为案例研究
本研究提出了使用五种法律关系从 2,388 个中国法典语料库中建立一个 1,134 个法律类比推理问题集 (LARQS), 以评估中文词嵌入模型的准确性,并发现法律关系可能是词嵌入模型中普遍存在的。
- ICLR用主题嵌入混合表示单词嵌入混合
本文提出了一种新的主题建模框架,在该框架中,每个文档都被视为一组单词嵌入向量,每个主题都被建模为嵌入空间中的嵌入向量,并在相同的向量空间中嵌入单词和主题,定义一种方法来衡量文档单词的嵌入向量与主题嵌入向量之间的语义差异,并优化主题嵌入以最小 - 抗击单词级对抗性攻击的文本嵌入
本研究提出了一种新的鲁棒训练方法,即 Fast Triplet Metric Learning (FTML),通过采用三元组度量学习来让相似的样本在嵌入空间中的表示更接近,并与其敌对样本有类似的表示,从而提高自然语言处理模型在对抗攻击下的鲁 - 使用 PSSM 和词嵌入预测流感病毒 A 的宿主
使用机器学习模型,结合 PSSM 和词嵌入和编码等特征推断病毒宿主。结果表明基于 PSSM 的模型性能较好,MCC 约为 95%,而基于词嵌入的模型的 MCC 约为 96%。
- KDD跨领域语义增强在检测抑郁语言中的综合实证分析
研究在数据量少的情况下,如何利用数据增强方法,将大规模预训练语料库中的词向量嵌入模型与特定领域语料库中的词向量嵌入模型相结合,以提高在抑郁语言检测任务中的表现,结果显示该数据增强方法可以显著提高模型性能。
- ACL重新思考加性组合性:利用词嵌入进行 “与”、“或” 和 “非” 操作
通过频率加权中心化的方式,本文提出了一种后处理方法来弥补实际词嵌入与加性组合理论假设间的差距,同时给出了一种通过词嵌入完成 OR 和 NOT 操作的方法,并在实验证实了通过本文的后处理方法可以提高 AND 操作的准确度(在 Top-100 - 学习去除:面向各向同性的预训练 BERT 嵌入
研究表明预训练语言模型,如 BERT,在自然语言处理方面具有更广泛的应用价值。本文探究和分析预训练 BERT 嵌入的几何特征,提出一种基于可学习权重的简单而有效的方法,可以更好地处理向量的同一性问题,并在三项标准任务中获得较好的性能表现。
- AAAI静态和上下文嵌入的不对称度测量及其在表示学习中的影响:圆形与椭圆形的相似性?
本文研究了词嵌入的不对称性、三个不同的 word evocation 实验数据集以及基于贝叶斯理论的评估方法,通过评估词向量模型的相似度和不对称性,并比较静态词向量模型和上下文词向量模型的表现,提出了一种新的方法来评估词向量模型的质量。