- 余弦相似度损失的隐蔽陷阱
我们展示了在两种未被充分探索的情况下,两点之间的余弦相似度的梯度趋近于零:(1)如果一个点的幅度很大,或者(2)如果这两个点位于潜在空间的两端。令人意想不到的是,我们证明,优化点之间的余弦相似度会导致它们的幅度增加。因此,(1)在实践中是不 - 跨级需求追踪:一种融合词袋模型和词向量的新方法,用于增强相似性功能
我们提出了一种新的方法来自动化将高级业务需求与更高级的技术系统需求关联起来,该方法使用词袋模型和 TF-IDF 得分函数表示每个需求,并使用最近的词嵌入表达方式改进余弦相似度函数以提高效率。实验证明,与现有方法相比,我们的方法在某个数据集中 - 通过标准化的 ICA 转换嵌入重新审视余弦相似度
本研究提出一种新的解释,将余弦相似度解释为在独立成分分析转换的嵌入空间中的语义相似度之和,通过实验证明了归一化的 ICA 转换后的嵌入具有稀疏性,可以增强可解释性,并利用理想嵌入进行检索实验验证了该解释的有效性。
- 机器翻译质量评估中的文本相似度作为关键指标
使用句子转换和余弦相似度来衡量语义上的相似度,本研究将 “文本相似性” 引入机器翻译(MT)质量估计(QE)作为一种新的度量标准。通过分析 MLQE-PE 数据集,我们发现文本相似性与人工评分的相关性比传统指标(hter、模型评估等)更强。 - 随机投影下的节点相似性:极限和病态案例
通过随机投影方法生成的嵌入向量在计算效率上得到了广泛应用,本文进一步研究了随机投影对点积和余弦相似度的保留效果并提供了新的理论结果,找出了病态案例并用数值实验进行了测试,发现对于低度或高度节点,此方法在点积上得到的嵌入向量相对不可靠,而与随 - 使用 Transformer 神经网络来定义智慧城市
通过使用基于 Transformer 架构的生成式人工智能和语义文本分析技术,本研究从工业、学术界和相关组织中收集并回顾了 60 个智慧城市的定义,提出了一种语义相似度度量方法,并使用余弦相似度作为评估指标,最终确定了与这 60 个定义中最 - 通过张量化的随机投影来改进 LSH
提供了一种基于 CP 和 tensor train (TT) 分解技术的 LSH 方法,适用于欧几里得距离和余弦相似度的张量数据,具有空间高效性。
- 个别类别信息传递的余弦相似度知识蒸馏
通过使用批量预测的余弦相似度度量以及基于余弦相似度的温度调节方法,我们提出了一种新颖有效的知识蒸馏方法,可以使学生模型达到与教师模型相似甚至更好的性能,该方法将为模型压缩的未来研究提供宝贵的见解。
- 古兰经对话:利用阿拉伯自然语言处理技术开发古兰经的语义搜索工具
研发了一种《古兰经语义搜索工具》,通过在超过 30 个《注释》数据集上训练多个模型,使用余弦相似度,在 Quran 中找到与用户查询或提示相关的经文。使用 SNxLM 模型,能够获得高达 0.97 的余弦相似度分数,与财务事务相关的经文对应 - ICCV大规模多模型实用成员推理攻击:一个试点研究
利用余弦相似度阈值和弱监督攻击方法,对多模式模型进行成员推断攻击,研究表明 CLIP 模型容易受到攻击,而弱监督攻击方法在低误报率下平均性能提高 17%,至少比基准方法有效率提高 7 倍。
- 通过对比学习进行面部图像的年龄预测
提出了一种新的方法,可以通过对不同人的面部图像进行对比学习,准确地估计年龄,并通过结合余弦相似度和三元组边距损失来突出与年龄相关的特征并抑制与身份相关的特征。通过在 FG-NET 和 MORPH-II 两个公共数据集上取得最先进的性能,验证 - 视频流媒体平台基于内容的推荐引擎
本研究提出了一个基于内容的推荐引擎,通过使用机器学习算法为用户提供视频建议,该引擎基于用户先前的兴趣和选择。我们将使用 TF-IDF 文本向量化方法来确定文档中单词的相关性,然后通过计算它们之间的余弦相似度来找出每个内容之间的相似度。最后, - 基于卷积神经网络的生物特征验证的可解释模型无关算法
本文采用 Local Interpretable Model-Agnostic Explanations(LIME)人工智能方法,在生物识别验证环境下进行了适应性改进,通过余弦相似度来实现可解释性,并且展示了针对移动网络和 ResNet50 - 利用 ChatGPT 生成的数据从社交媒体检索抑郁症状
本研究使用 ChatGPT 生成合成数据,并使用语义搜索和余弦相似度来确定 Reddit 社交媒体句子对 BDI-II 症状的相关性,发现对于句子嵌入,使用专门用于语义搜索的模型胜过对精神健康数据进行预训练的模型。
- ICML一种基于余弦相似度的未知分布检测方法
该论文提出 Class Typical Matching (CTM) 算法用于后续检测 OOD 数据。CTM 使用余弦相似度作为评分函数,经过多个基准测试表明,该算法超过了现有的后续 OOD 检测方法。
- 利用不同孟加拉语在线报纸检索新闻对位置进行排名和预测未来犯罪发生
该研究利用不同的在线新闻网站进行犯罪数据爬取、词干提取,运用了位置查找算法、余弦相似度、朴素贝叶斯分类器以及一种自定义的犯罪预测模型来估计特定地点的犯罪率,并对犯罪地点进行排名和预测未来的犯罪发生率。
- 基于机器学习的医疗保险决策建议系统在尼日利亚的应用
采用基于内容的方法和 KNN 与余弦相似度算法,匹配用户意向和偏好筛选,推荐基于用户位置和价格的最相似的健康管理机构,提高尼日利亚医保参与率。
- 通过 L2 范数打折解决高频词余弦相似度低估问题
本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。
- 多层次句子嵌入用于人格预测
通过 AdaCos 损失函数对上层句子空间进行训练,并使用基于余弦相似度的新型损失函数进行微调,我们成功地将文本表示为多维空间中的向量,实现了在拥有复杂多级结构的数据集中进行文本分类的目标。
- PART: 预训练的作者表示转换器
提出 PART: 一种对比训练的模型,用于学习作者嵌入,以确定文本的专有权通过评估所述文件的余弦相似性,用于文学作品、匿名博客帖子和公司电子邮件的作者识别的零炮验证,并在可用数据集的不同数据可视化下定性评估表征。