Concept2vec:评估本体概念嵌入质量的度量标准
本文介绍了在 deep learning 模型的 concept-based explanations 框架下使用 disentanglement learning 模型的相关指标来评估 concept representations 的纯度,并验证了这些新指标的有效性和它们在评估纯度、干预和基准测试等方面的实用性。
Jan, 2023
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023
论文提出了第一个基于认知词汇语义的多模态框架,用于评估六种类型的英语词表示,通过瞳孔追踪、EEG 和 fMRI 等三种不同类型的记录数据,进行全面的测试和评估,并得出认知数据之间、记录模式之间和与 NLP 任务性能之间的强相关性。
Sep, 2019
该研究提出了使用构造效度框架评价文本嵌入模型在社会科学研究中的有效性,并发现基于 BERT 的嵌入技术和通用句子编码器提供了更有效的调查问题表述。
Feb, 2022
本文提出了一种基于随机游走和词嵌入的本体嵌入方法 OWL2Vec *,该方法将 OWL 本体的语义编码为结合了图结构,词汇信息和逻辑构造式的表示。通过在三个真实数据集上的实证评估,我们发现 OWL2Vec * 在类成员预测和类包含预测任务中从本体的三个不同方面受益,并且通常在我们的实验中优于现有的技术水平。
Sep, 2020
本研究提出了 6 个可衡量知识图谱质量的结构化质量度量标准,并分析了 5 个跨领域的知识图谱。研究结果表明,优秀的知识图谱应定义详细的类和属性以便丰富地表达现实世界的知识,并且实例和 RDF 三元组应积极使用这些类和属性。因此,本文通过关注本体论的结构和使用的程度,试图从定量角度研究知识图谱的内部质量。通过分析,可以找到仅通过大小相关的指标(例如类和属性的数量)无法得知的知识图谱特征。
Nov, 2022
本篇研究提出了 BioConceptVec,通过利用最先进的文本挖掘工具和机器学习模型学习 PubMed 摘要中介绍的超过 400,000 个生物概念的向量表示(即嵌入),来捕捉相关概念的语义。BioConceptVec 已经在包括 9 个不同生物数据集的 2500 万实例的多个生物信息学任务中得到了全面评估,在所有任务中其性能均优于现有方法。最后,BioConceptVec 通过网站免费向研究社区和公众提供。
Dec, 2019
通过结合分类、聚类和 t-SNE 基于邻近性分析的评估方法以及优化技术(如贝叶斯优化)来量化嵌入式数据在捕捉结构和上下文信息方面的有效性,本文旨在提出一种衡量嵌入式数据表现能力的方法,从而为研究者和实践者选择适用的嵌入式模型提供数据支持和辅助决策。
Sep, 2023