本文评估了神经网络模型以预测 Stack Overflow 上问题的质量,结果表明与基准机器学习模型相比,神经网络模型具有更高的准确性,并且发现神经网络模型的层数对其性能有显著影响。
Apr, 2024
该论文提出了一种新方法,使用手工特征和神经网络提取对齐的自然语言与代码的模式,通过分类器挖掘高质量的数据集,并在 Python 和 Java 两种编程语言中进行实验,表明该方法即使在使用少量标记示例时也能大大提高代码挖掘的覆盖范围和准确性。
May, 2018
通过一系列基于众包的实验,研究如何在使用机器学习辅助的文本分类任务中使用突出显示来提高效率和准确性,发现突出显示可以减少分类的工作量,但不能提高准确性,低质量的突出显示反而会降低准确性。
Sep, 2019
本文旨在通过生成可叠加在原始文档上的概要亮点的方式来减轻读者处理大量文本的负担。我们提出了一种新方法,通过联合确定点过程和深层语境表示来产生自包含亮点,以避免混淆并保持原意的完整性,以展示我们的方法的灵活性和建模能力。该方法在概括数据集上进行了广泛的实验,证明亮点是未来概括研究的有前途的方向。
Oct, 2020
本文介绍了一个计算机编程领域的新命名实体识别(NER)语料库,包括 15,372 个句子和 20 种细粒度实体类型。我们使用基于 BERToverflow 的训练数据对 BERT 模型进行了改进,并提出了 SoftNER 模型,通过上下文无关代码标记分类器和语料库级特征,可在 StackOverflow 数据集上实现代码和命名实体识别。
May, 2020
本文提出了一种基于文档精华提取的文本摘要方法,并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders,利用自我强化学习模型进一步提高了文本摘要的质量,实现并超越了文本摘要领域的最佳性能,其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。
Oct, 2019
本文提出了一种新的从 Stack Overflow 上系统挖掘问题 - 代码对的方法,并利用双视图层次神经网络模型进行预测,成功地创建出目前最大的 Python 和 SQL 领域的问题 - 代码对数据集 StaQC,可以有效地帮助自然语言处理模型与编程语言的关联。
Mar, 2018
通过人机协同的方式,利用软突出技术提高图像搜索的性能,实验结果显示软高亮度优于硬高亮度。
Dec, 2016
使用 CoNaLa 语料库和 BART 模型来回答编程问题,利用问题提问和意图,结合所挖掘的 CoNaLa 数据,取得了 BLEU 达到 35.32 的优良成绩,并通过对比实验证明了 BART 模型的在无监督多模态学习和摘要提取方面的优势。
Jun, 2021
本文总结了 SemEval-2020 任务 10 的主要结果,该任务旨在设计自动化方法选择文本内容中的强调元素,并发现 BERT 是参与者常用的预训练模型之一。
Aug, 2020