Stack Overflow 回答中信息突出的初步研究

Jan, 2024

Stack Overflow 回答中信息突出的初步研究

A First Look at Information Highlighting in Stack Overflow Answers

Shahla Shaan Ahmed, Shaowei Wang, Yuan Tian, Tse-Hsun, Chen...

TL;DR我们的研究发现，可以开发推荐模型来突出展示 Stack Overflow 上具有不同格式样式答案的信息。

Abstract

Context: Navigating the knowledge of stack overflow (SO) remains challenging. To make the posts vivid to users, SO allows users to write and edit posts with Markdown or HTML so that users can leverage various formatting

stack overflow highlighted information neural network architectures recommendation models formatting styles

发现论文，激发创造

用神经网络预测 StackOverflow 上的问题质量

本文评估了神经网络模型以预测 Stack Overflow 上问题的质量，结果表明与基准机器学习模型相比，神经网络模型具有更高的准确性，并且发现神经网络模型的层数对其性能有显著影响。

Apr, 2024

从 Stack Overflow 学习挖掘代码和自然语言配对

该论文提出了一种新方法，使用手工特征和神经网络提取对齐的自然语言与代码的模式，通过分类器挖掘高质量的数据集，并在 Python 和 Java 两种编程语言中进行实验，表明该方法即使在使用少量标记示例时也能大大提高代码挖掘的覆盖范围和准确性。

May, 2018

理解文本高亮在众包任务中的影响

通过一系列基于众包的实验，研究如何在使用机器学习辅助的文本分类任务中使用突出显示来提高效率和准确性，发现突出显示可以减少分类的工作量，但不能提高准确性，低质量的突出显示反而会降低准确性。

Sep, 2019

更好的高亮：创建子句摘要亮点

本文旨在通过生成可叠加在原始文档上的概要亮点的方式来减轻读者处理大量文本的负担。我们提出了一种新方法，通过联合确定点过程和深层语境表示来产生自包含亮点，以避免混淆并保持原意的完整性，以展示我们的方法的灵活性和建模能力。该方法在概括数据集上进行了广泛的实验，证明亮点是未来概括研究的有前途的方向。

Oct, 2020

在 StackOverflow 中进行代码和命名实体识别

本文介绍了一个计算机编程领域的新命名实体识别（NER）语料库，包括 15,372 个句子和 20 种细粒度实体类型。我们使用基于 BERToverflow 的训练数据对 BERT 模型进行了改进，并提出了 SoftNER 模型，通过上下文无关代码标记分类器和语料库级特征，可在 StackOverflow 数据集上实现代码和命名实体识别。

May, 2020

阅读、标记和总结：基于层次神经语义编码器的方法

本文提出了一种基于文档精华提取的文本摘要方法，并通过引入语言因素和改进神经网络如 LSTMs 和 Neural Semantic Encoders，利用自我强化学习模型进一步提高了文本摘要的质量，实现并超越了文本摘要领域的最佳性能，其中基于分层 NSE 模型的 ROUGE 值提升近 4 个百分点。

Oct, 2019

StaQC: 从 Stack Overflow 系统挖掘的问题 - 代码数据集

本文提出了一种新的从 Stack Overflow 上系统挖掘问题 - 代码对的方法，并利用双视图层次神经网络模型进行预测，成功地创建出目前最大的 Python 和 SQL 领域的问题 - 代码对数据集 StaQC，可以有效地帮助自然语言处理模型与编程语言的关联。

Mar, 2018

软高亮优化人机协同视觉搜索

通过人机协同的方式，利用软突出技术提高图像搜索的性能，实验结果显示软高亮度优于硬高亮度。

Dec, 2016

阅读 StackOverflow 鼓励作弊：添加问题文本改进抽取式代码生成

使用 CoNaLa 语料库和 BART 模型来回答编程问题，利用问题提问和意图，结合所挖掘的 CoNaLa 数据，取得了 BLEU 达到 35.32 的优良成绩，并通过对比实验证明了 BART 模型的在无监督多模态学习和摘要提取方面的优势。

Jun, 2021

SemEval-2020 任务 10：视觉媒体中书面文本的重点选择

本文总结了 SemEval-2020 任务 10 的主要结果，该任务旨在设计自动化方法选择文本内容中的强调元素，并发现 BERT 是参与者常用的预训练模型之一。

Aug, 2020