通过嵌入增强的文本切片实现对话会话分割

Oct, 2016

通过嵌入增强的文本切片实现对话会话分割

Dialogue Session Segmentation by Embedding-Enhanced TextTiling

Yiping Song, Lili Mou, Rui Yan, Li Yi, Zinan Zhu...

TL;DR本文提出了一种基于 embedding 的 TextTiling 方法，用于解决在人机对话系统中，如何对当前对话的前文进行有针对性的跟踪和利用的问题，并通过实验结果证明该方法的有效性。

Abstract

In human-computer conversation systems, the context of a user-issued utterance is particularly important because it provides useful background information of the conversation. However, it is unwise to track all p

human-computer conversation systems context session segmentation embedding-enhanced texttiling approach word embeddings

发现论文，激发创造

说明性文本的多段落分割

本论文介绍了 TextTiling 算法，该算法可以将说明性文本划分为连贯的多段篇章单元，从而反映文本的子主题结构。

Jun, 1994

基于注意力机制的神经文本分割

本文提出了一种基于注意力机制的双向 LSTM 模型，使用卷积神经网络学习句子嵌入，利用上下文信息预测文本分段，相比现有的竞争基准方法，在三个基准数据集上的 WinDiff 分数提高了约 7%。

Aug, 2018

语音文本语义对齐嵌入的分析

本论文研究联合语音 - 文本 Embeddings 空间的内在属性，借助自动语音识别，通过多任务预训练场景实现语义对齐，利用定量检索精度度量语义对齐，进行了深入分析。

Apr, 2022

野外话题分割：面向半结构化和非结构化聊天分割

本文在分析当前 NLP 中的主题分割模型的通用性能力时，发现在处理非结构化文本时，预训练策略并没有提高模型在该领域的可迁移性，只用一个相对较小的与目标结构相同的训练集从头开始训练模型，可以显著改善分类结果...

Nov, 2022

基于话语和上下文嵌入的检索式对话系统

本文利用局部敏感哈希树 LSH Forest 实现了基于向量表示的答案检索，并探讨了使用候选项选择方法时，这种方法的优越性。在 Ubuntu 语料库和荷兰的客户服务聊天数据集上进行的实验结果表明，检索式方法优于生成式方法，并揭示了未来研究方向。

Oct, 2017

探索上下文和嵌入在神经命名实体识别模型中在任务定向对话系统中的重要性

本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能，研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式，并探讨了前一个话语作为附加特征的不同组合，以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。

Dec, 2018

语言模型在半结构化和非结构化对话数据集中的主题分割

我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力，并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时，我们的实证评估表明，Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。

Oct, 2023

对话上下文融合的端到端语音识别中的门控嵌入

本文提出一种新颖的基于门控神经网络的语音识别模型，采用对话上下文 / 词 / 语音嵌入，结合外部词和 / 或句子嵌入来提高对话上下文表示，从而显著提高单词错误率，对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。

Jun, 2019

Nugget：文本的神经集成嵌入

Nugget 是一种将语言编码为基于动态选择的子集输入标记的表示方法，通过自动编码和机器翻译等任务学习这些紧凑单元来直观地将语言分成有意义的单元，并在涉及语义比较的任务中明显优于相关方法，同时该方法还允许扩大语言模型的上下文窗口，为未来的语言模型打开了新的前景。

Oct, 2023

利用自动回复分割从无标记文档中合成对话

通过学习对话任务数据的分割而不是使用句子边界的分割方法，我们提出了一种强大的对话合成方法，通过该方法生成的合成数据集在机器和人员评估中表现出优越的质量，同时在 ConvQA 检索系统预训练中使用我们的填充数据，观察到 OR-QuAC 基准测试数据的显著提升。

Jun, 2024