- 相似度度量对基于文本可解释 AI 的本地替代模型的准确稳定性估计的影响
最近的研究探讨了机器学习模型输入的局部替代方法对对抗扰动的脆弱性,其中在复杂模型下,解释被操纵,但原始输入的意义和结构保持相似。虽然已证明许多方法存在弱点,但其中的原因仍未得到深入探究。对可解释人工智能(XAI)上的对抗攻击的核心概念是用于 - 布雷斯距离和形状距离的偶性及其在比较神经表示中的应用
神经网络表示之间的多种 (不) 相似性度量已被提出,大多数这些度量方法可以归为两类:第一类是学习显式映射以量化相似性的线性回归、规范相关分析和形状距离;第二类是量化相似性的总结统计信息的表示相似性分析、中心核对齐和归一化布雷凡斯相似性,本文 - 数据相似性无法充分解释语言模型的性能
大型语言模型的性能在许多下游任务上都很高,但并非所有任务都能实现高性能。我们通过与下游基准测试的大规模比较,测试了预训练数据与任务数据之间的相似度是否与语言模型的性能相关。我们惊讶地发现,在其他基准测试中,相似度指标与准确性甚至彼此之间都没 - 深度关注时间扭曲
本文提出了一种神经网络模型来进行任务自适应时间对齐,使用注意力模型开发了一个明确的具有更大畸变不变性的时间对齐机制,并通过度量学习进行训练,与传统的基于 DTW 的可学习模型不同,它能够学习目标任务的最佳数据相关对齐,实验证明了我们模型在在 - 基于节点中心性和图嵌入的链接预测参数化模型
本文提出了一种新的方法 Node Centrality and Similarity Based Parameterised Model(NCSM)用于链接预测任务,通过在自定义的图神经网络(GNN)层中将节点中心性和相似性度量作为边特征进 - 无源自适应域无监督交叉干预网络
提出了一种基于交叉推理网络的新方法,用于解决无源自适应领域中预测结果评估的问题,结果表明这种方法可以显著提高源自由无监督领域适应的性能。
- 机器学习和统计方法用于衡量政党相似度
采用自然语言处理技术中的大型变形器模型,对政党政治纲领进行相似度测量,并分析它们与专家调查、选民投票记录及候选人网络等指标的相关性,考虑了这种方法替代专家判断的前景。
- 神经网络模型的相似性:功能和表征度量的调查
该论文综述了神经网络模型的两种相似性度量方法,即表示相似度和功能相似度,介绍了现有度量方法的详细描述,并总结和讨论了这些度量方法的特性和关系,并指出了开放的研究问题和为研究人员及从业者提供实用的建议。
- EMNLPNMTScore: 基于翻译的文本相似度测量方法的多语言分析
本研究基于多语言神经机器翻译的框架,通过分析直接和间接翻译概率以及交叉似然度量的相似度评估方法,研究了这些方法在短文本相似度评估中的性能,提出并实现了基于翻译的相似度评估方法库 NMTScore,并在两项数据生成任务和 17 种语言上进行了 - 牙刷在厨房里做什么?变形金刚如何认为我们的世界被构建
本文使用前人关于 transformer-based models 偏见的研究,比较了 contextualized models 和 static models 在知识抽取上的差异,发现在不同的相似性分类器应用下,这两种 models 的 - 用于基于方面相似性的研究论文的专业文档嵌入
本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题,提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入,并在 aspect 特异的嵌入空间中对其进行相似性度量的方案,有效地解决了现有方案中文档连贯性差的问题,并通过与 - 二分图中的职业相似性
研究评估了多种可解释的职业相似度测量方法,使用二分图的框架推导出数个职业相似度测量方法,并在斯洛文尼亚的超过 450,000 个工作转移中进行了验证,结果表明多种相似度测量方法都可靠并且呈现不同的可行职业路径。
- EMNLP我们曾经有过这样的对话:测量对话相似性的新方法
本文提出了一种用于评估对话相似性的编辑距离指标,该指标考虑到了对话的诸多方面,如话语语义,对话流程和参与者,并证明了其在捕捉对话流程和与人类对话相似性方面的优势。
- EMNLP变形器语言模型中的流浪维度掩盖了表征质量
通过标准化技术等方法探讨相似度测量在 BERT 和 GPT-2 等上下文鉴别模型中的代表性和准确性。我们发现一些不代表整体性质的维度会干扰这些测量,并且这些测量值并不一定代表模型的真实行为。因此,我们认为分析这些模型中基于相似性的操作需要解 - CVPR利用 Jaccard 相似度测量将过去与未来相关联,预测人类行为
提出一种早期行动识别和预测的框架,使用三种称为 Jaccard 向量相似性、Jaccard 交叉相关和 Jaccard Frobenius 内积的新相似性度量来关联过去的特征和未来的特征,利用这些创新的损失和我们的框架,在 UCF101 和 - ICCV学习正定矩阵的对数行列式差异
本文提出了一种基于数据驱动的方法学习用于比较对称正定矩阵的相似度度量,以及将其应用于机器学习中的多个标准任务中,取得了良好的性能。
- EMNLP预训练数据的成本效益选择:在社交媒体上预训练 BERT 的案例研究
本文讲述了如何在特定领域的 BERT 模型中使用社交媒体文本进行预训练,通过相似度计算筛选出有效的预训练数据,并实验验证了在推特和论坛文本上进行预训练的模型可以提高下游任务的效果。
- KDDGrale: 设计用于图学习的网络
本研究提出了 Grale 方法,通过融合不同的相似性度量来创建多种任务特定的同质化图,以解决图设计问题。我们在 Google 的 20 多个不同的工业设置中部署了 Grale,并且通过运用局部敏感哈希技术,大大减少了需要打分的节点对数量,从 - k - 最近邻分类器:第 2 版(附带 Python 示例)
本文介绍了最近邻分类器的技术和方法,主要关注评估相似度、处理计算问题、降低数据维度等方面,新增时间序列相似性、检索加速和固有维度的相关内容,并提供了相关 Python 代码。
- 亚洲宗教有何共同之处?一次无监督文本分析探索
本文试图通过文本挖掘技术,探索亚洲和非亚洲的宗教经典之间的相似性,并使用监督学习算法,测量其正确预测各种经文的准确性。利用欧几里得、曼哈顿、Jaccard 和 Cosine 等相似性度量方法以及基于文档单词出现频率和规范化文档单词出现频率等