语义文本相似度中文程序缩略模型的比较研究

Aug, 2023

语义文本相似度中文程序缩略模型的比较研究

A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports

Avinash Patil, Kihwan Han, Sabyasachi Mukhopadhyay

TL;DR比较语义文本相似性方法在检索类似缺陷报告方面的有效性，使用 TF-IDF（基线）、FastText、Gensim、BERT 和 ADA 等嵌入模型来评估性能。研究结果表明，BERT 一般在召回率方面表现优于其他模型，其次是 ADA、Gensim、FastText 和 TFIDF，对检索类似缺陷报告任务选择合适的嵌入方法的影响进行了探讨。

Abstract

bug reports are an essential aspect of software development, and it is crucial to identify and resolve them quickly to ensure the consistent functioning of software systems. Retrieving similar bug reports from an

bug reports semantic textual similarity embedding models bert software projects

发现论文，激发创造

专利相似性的嵌入模型比较分析

该研究在文本专利相似性领域有两方面的贡献：首先，它比较了不同类型的专利特定预训练嵌入模型，包括静态词嵌入（如 word2vec 和 doc2vec 模型）和上下文词嵌入（如基于 transformers 的模型），在专利相似性计算任务上的性能；其次，它比较了 Sentence Transformers（SBERT）架构在专利相似性任务上不同训练阶段的性能。结果表明，该研究提出的专利 SBERT-adapt-ub，即预训练 Sentence Transformer 架构的领域自适应，优于当前专利相似性的最新技术水平。其次，研究结果显示，在某些情况下，大型静态模型在训练大量数据时仍可以与上下文模型相媲美；因此，我们认为上下文嵌入在性能上的优势可能与实际架构无关，而是与训练阶段的方式有关。

Mar, 2024

基于 Transformer 的神经文本表示技术在错误分配中的比较研究

本研究通过使用 DeBERTa 技术，对 53 年的开源数据集进行了自动故障调整的任务进行了量化和定性分析，结果表明 DeBERTa 是在开发者和组件分配等任务中最有效的技术。

Oct, 2023

评估语义变化的句子嵌入模型的比较研究

分析语义变化的模式在长篇实际文本（如书籍或记录）中是有趣的，从文体、认知和语言的角度来看。这项研究也对应用领域，如文本分段、文档摘要和语义新颖性检测是有用的。本文通过时间序列的语义相似性以及多本文学作品的两两句子相似性矩阵比较了几种最近的句子嵌入方法。与以前使用目标任务和精心策划的数据集比较句子嵌入方法的研究不同，我们的方法提供了对方法在现实情境的评估。我们发现，大部分句子嵌入方法确实能够在给定文档中推断出高度相关的语义相似性模式，但也存在有趣的差异。

Aug, 2023

专利分析中句子嵌入模型表现的调查

本研究旨在评估基于不同 NLP 嵌入模型的专利数据嵌入模型计算专利技术相似度的准确度，提出了一个评估嵌入模型准确度的标准库和数据集，研究结果表明 PatentSBERTa、Bert-for-patent 和 TF-IDF 加权词嵌入在子类别级别计算句子嵌入具有最好的精确度。

Apr, 2022

编程语言和自然语言的对齐：探索多模态变换器嵌入在缺陷定位中的设计选择

通过评估 14 个不同的嵌入模型并开发相应的漏洞定位模型，我们的研究表明，预训练策略显著影响嵌入质量，并且嵌入模型对数据的熟悉程度对漏洞定位模型的性能有着显著影响。当训练数据和测试数据来自不同的项目时，漏洞定位模型的性能会出现大幅波动。

Jun, 2024

基于多文本信息和报告意图的 Bug 报告自动分类

本研究提出了一种新的自动分类缺陷报告的方法，采用自然语言处理技术对文本信息进行预处理，并综合考虑缺陷报告的意图，包括 Apache、Eclipse、Gentoo、Mozilla 等四个生态系统，使用 BERT 和 TF-IDF 技术提取特征，训练分类器后实验结果表明，我们的方法的 F-Measure 从 87.3% 提高到了 95.5%。

Aug, 2022

基于 Bert 的上下文对词相似度影响的精准预测模型

本文主要探讨了一种分析语境对相似词人类感知影响的方法，使用多种方式计算 BERT 生成的双向编码器表示法的两个嵌入向量之间的距离，研究组在 SemEval 2020 的任务三中赢得了芬兰语语言赛道的第一名和英语语言赛道的第二名。

May, 2020

使用自然语言处理技术对 Bug 报告进行自动标记

本文提出了一种基于自然语言处理技术的方法，考虑 Bug 报告的结构化和非结构化属性，例如概述、描述、严重性、影响产品、平台和类别等信息，利用自定义数据转换器、深度神经网络和非泛化机器学习方法检索现有的相同 Bug 报告，并在大量数据来源的众多实验中展示了所提出的解决方案在召回率为 5 时的高检索准确性为 70%。

Dec, 2022

从自然出现的商业对话中提取相似问题

我们使用经过适当调整的表示方法和少量示例来对商业用户感兴趣的问题进行分组，并制作可用于数据探索或员工培训的可视化。

Jun, 2022

用于基于方面相似性的研究论文的专业文档嵌入

本文讨论了利用基于 aspect 的文本相似性测度进行科学论文推荐的问题，提出了将单一常规嵌入表示文档改为多个具有专业性的嵌入，并在 aspect 特异的嵌入空间中对其进行相似性度量的方案，有效地解决了现有方案中文档连贯性差的问题，并通过与现有方案的比较表明其优越性。

Mar, 2022