- 结合嵌入和领域知识进行职位发布的重复检测
我们提出了一种用于检测职位描述中的重复内容的方法,结合基于字符相似度的重叠度、文本嵌入和关键词匹配的方法,取得了令人信服的结果。使用我们的方法开发的工具已经在生产中使用,并且来自实际使用的反馈证实了我们的评价。
- 面部图像数据集中的重复样本:影响和检测
通过使用文件和图像哈希的方法,结合人脸图像预处理,检测相同和近似的人脸图像重复,进一步基于人脸识别和图像质量评估模型,减少误报和便于去重处理,该方法在多个数据集上验证并公开了去重数据。
- 使用孪生结构细化 GPT-3 嵌入来进行技术文章重复检测
通过使用 GPT-3 嵌入来检测重复的技术文章,并结合基于 GPT-3 嵌入的孪生网络,实现对技术论坛中重复帖子的准确表示与捕捉。
- 软件工程句对冲突和重复检测的数据增强
本研究探讨使用文本数据增强技术如洗牌、反向翻译和改写等,以句对分类的方式增强软件工程任务中的冲突与重复检测效果。结论发现,数据增强技术对六个软件文本数据集的所有文本句对效果有显著影响,但在数据集相对平衡时,使用增强技术可能会对分类效果产生负 - 关于 LAION-2B 数据去重的研究
本文提出了一种算法链,能够对规模为 20 亿张图片的 LAION-2B 数据集进行有效的重复检测,并揭示了大量的版权问题,能够充分解决当前模型训练时所遇到的问题。
- 重复项检测服务
本文提出了以服务为基础的方法,旨在提高知识图的完整性并在未需专业知识的前提下实现实例的去重,其具有易于使用性和竞争力,并已在工业应用中得到采用。
- 超越重复:探索和预测问题追踪系统中的链接类型
研究了 JIRA 中连接问题的各种类型链接,将其分为五类,并发现了不同类型链接的特点和趋势,最后运用现有的深度学习方法,发现这种方法在识别重复链接时存在问题,并提出了解决方法。
- MQDD:面向软件工程领域的多模态问题重复检测的预训练
本文提出了一种新的方法,在 Stack Overflow 网站上收集数据并预训练多模态模型来搜索重复的问题回答。通过引入两个新的学习目标,我们设计的多模态模型可以在多种编程语言中训练,从而提高重复检测的能力。最终我们得到了一个 MQDD(M - ACL提高 NLP 系统的选择性预测能力
本文介绍了一种通过使用预测置信度和难度分数来校准模型的概率估计方法,并基于此方法进行了自然语言推理和重复检测任务的实验,结果表明我们的校准器在 NLI 和 DD 任务中分别提高了 15.81%和 6.19%的准确率。
- ACLTrain One Get One Free: 部分监督神经网络用于 Bug 报告的重复检测和聚类
本文提出利用神经网络的方式,同时检测软件缺陷汇报是否为重复报告,并将它们聚合成潜在的主题,并证明该模型可以取得比现有方法更好的效果,并且还可以在无监督的情况下学习到有意义的潜在聚类。