技术支持问题分割改进

ACLMay, 2020

Improving Segmentation for Technical Support Problems

Kushal Chauhan, Abhirut Gupta

TL;DR本文介绍了一种利用多种语言模型来实现针对技术支持问题的分割，以提高解决问题的效率，并通过案例分析证明了这种分割可以提高问题回答的准确性。

Abstract

technical support problems are often long and complex. They typically contain user descriptions of the problem, the setup, and steps for attempted resolution. Often they also contain various non-natural language text elements like outputs of commands, snippets of code, error messages o

technical support sequence labeling task text segmentation language models answer retrieval

发现论文，激发创造

文本分割作为监督学习任务

本研究利用维基百科文章，将文本分割任务作为有监督学习问题进行探究，提出了一个基于这个数据集的文本分割模型，并展示了其在未见过的自然文本上的泛化能力。

Mar, 2018

法律文件的结构化文本分段

本研究提出了一种基于 transformer 网络和结构化文本分割的方法来预测跨越多个段落的连续文本段落的主题连贯性，以更有效地满足用户特定的信息需求，研究结果表明，此方法显著优于基线，并适应法律文件的结构特点。

Dec, 2020

聚焦本地上下文的话题分割模型

提出了采用孪生句子嵌入层的主题分割方法，结合同一主题预测、主题分类和下一句预测等多任务学习技术，实现对 WikiSection 数据集中文档的最新分割结果。

Jan, 2023

野外话题分割：面向半结构化和非结构化聊天分割

本文在分析当前 NLP 中的主题分割模型的通用性能力时，发现在处理非结构化文本时，预训练策略并没有提高模型在该领域的可迁移性，只用一个相对较小的与目标结构相同的训练集从头开始训练模型，可以显著改善分类结果...

Nov, 2022

语言模型在半结构化和非结构化对话数据集中的主题分割

我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力，并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时，我们的实证评估表明，Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。

Oct, 2023

结构化摘要：统一的文本分段和段落标注作为生成任务

提出一种单一的编码器 - 解码器神经网络方法，通过结构化总结的形式同时训练文档和对话数据的文本切片和标签任务，并成功展示了该方法在所属领域的顶尖性能以及其重要性。

Sep, 2022

自然语言分类器的多分辨率解释和诊断工具

通过对 NLP 模型中的观察段或语义相关的词群进行分析，将解释性摘要方法更加灵活化，并通过分析不同段落的虚假或肯定例子，引入了 NLP 模型的根本原因分析方法。最后，通过对 Yelp 评论数据集的实验证明，利用单词和 / 或信息中的组 / 集群结构可以帮助解释 NLP 模型的决策，并可用于评估模型对性别，语法和单词含义的敏感性或偏差。

Mar, 2023

走向统一的文本分割和长文摘要

本文研究了文本切分在摘要提取中的作用，通过将摘要和切分同时进行学习，以及通过一种基于优化的正则化方法来提高模型的多样性，实现了既能在科学文章也能在口语记录中达到最优性能且具有更好的跨体裁可转移性的效果。

Oct, 2022

通过嵌入增强的文本切片实现对话会话分割

本文提出了一种基于 embedding 的 TextTiling 方法，用于解决在人机对话系统中，如何对当前对话的前文进行有针对性的跟踪和利用的问题，并通过实验结果证明该方法的有效性。

Oct, 2016

基于注意力机制的神经文本分割

本文提出了一种基于注意力机制的双向 LSTM 模型，使用卷积神经网络学习句子嵌入，利用上下文信息预测文本分段，相比现有的竞争基准方法，在三个基准数据集上的 WinDiff 分数提高了约 7%。

Aug, 2018