本研究使用拓扑数据分析模式,开发和测试了一种新型的自监督学习算法,用于词义识别和消歧任务,并在 SemCor 数据集上演示了其低相对误差,为自然语言处理领域中基于拓扑的算法提供了希望。
Mar, 2022
本文研究预训练语言模型在捕捉语言学细微特征上的表现,分析了特征分类的可行性和模式,并提出警示,即不应使用表面水平数据集进行探测,应与基准线进行仔细比较,不应使用 t-SNE 图来确定向量表示中的特征是否存在。此外,本文展示了特征在这些模型的各层中可能高度局部化以及在上层中可能会丢失。
Oct, 2022
将 DBSCAN 聚类应用到潜在空间可以识别模糊词并评估其模糊程度,从而解决自然语言中的歧义问题。
Jul, 2023
我们引入了一个名为 AMBROSIA 的新基准,旨在帮助发展能够识别和解释含有歧义请求的文本至 SQL 解析器。我们的数据集包含展示三种不同类型(范围、附属、模糊)歧义及其解释和相应 SQL 查询的问题。通过从头开始生成数据库的控制生成方法,即使在提供数据库上下文的情况下,仍能保持歧义。我们在 AMBROSIA 上对各种 LLMs 进行基准测试,发现即使是最先进的模型也难以识别和解释问题中的歧义。
Jun, 2024
提出一种新的姓名消歧方法,使用基于图嵌入的低维向量将文档聚类,避免了隐私侵犯和昂贵的生物特征提取。通过实验表明,该方法在相似情境下比现有的姓名消歧方法显著更好。
Feb, 2017
本论文研究语义碰撞,即在语义上不相关但被 NLP 模型认为相似的文本。我们开发了基于梯度的方法用于生成语义碰撞,并证明了许多任务的最新模型,这些任务依赖于分析文本的含义和相似性,包括释义识别、文档检索、响应建议和提取式摘要等方面的模型都容易受到语义冲突的影响。例如,针对一个目标查询,将一个精心制作的语义碰撞插入到一个无关的文档中可以将其检索排名从 1000 上升到前三。我们展示了如何生成避开清晰度过滤器的语义冲突,并讨论了其他可能的缓解方法。
Nov, 2020
研究一种使用 BERT 表示组成部分的句子的模型,结合指针网络和 ConceptNet 等知识,实现对文本语义相似性的可解释性分析。实验结果表明,该模型在 chunk alignment 任务上取得了显著的性能提升。
Jul, 2020
本文研究使用抽象意义表示 (AMR)、依存句法和图核学习框架的结合,提高了生物分子相互作用提取系统的准确性和鲁棒性。
Dec, 2015
本研究提出了一种可伸缩的聚类算法,使用 EM-tree 算法在单个中型计算机上对数千亿个网页进行聚类,并在 ClueWeb09 和 ClueWeb12 上应用该算法,将 500 到 700 万个网页聚类成 50-70 万个聚类,进而提高了聚类质量的评价。
May, 2015
该研究提出了一种基于图的聚类方法,旨在捕捉各种高频和低频单词感知的微妙变化,包括这些感知随时间的获得和丧失。实验结果表明,该方法在四种语言的 SemEval2020 二元分类任务中显著超过了以前的方法。此外,我们展示了该方法作为一种多功能可视化工具,在语言内部和语言之间设置中检测语义变化的能力。我们已公开提供代码和数据。
Feb, 2024