本论文介绍了 TextTiling 算法,该算法可以将说明性文本划分为连贯的多段篇章单元,从而反映文本的子主题结构。
Jun, 1994
本文提出了一种基于注意力机制的双向 LSTM 模型,使用卷积神经网络学习句子嵌入,利用上下文信息预测文本分段,相比现有的竞争基准方法,在三个基准数据集上的 WinDiff 分数提高了约 7%。
Aug, 2018
本论文研究联合语音 - 文本 Embeddings 空间的内在属性,借助自动语音识别,通过多任务预训练场景实现语义对齐,利用定量检索精度度量语义对齐,进行了深入分析。
Apr, 2022
本文在分析当前 NLP 中的主题分割模型的通用性能力时,发现在处理非结构化文本时,预训练策略并没有提高模型在该领域的可迁移性,只用一个相对较小的与目标结构相同的训练集从头开始训练模型,可以显著改善分类结果...
Nov, 2022
本文利用局部敏感哈希树 LSH Forest 实现了基于向量表示的答案检索,并探讨了使用候选项选择方法时,这种方法的优越性。在 Ubuntu 语料库和荷兰的客户服务聊天数据集上进行的实验结果表明,检索式方法优于生成式方法,并揭示了未来研究方向。
Oct, 2017
本文通过在任务导向的对话系统中评估经过修改的最新神经网络架构的性能,研究了从文本、字符特征和外部语料库中训练的词嵌入的使用方式,并探讨了前一个话语作为附加特征的不同组合,以及在添加自动翻译的英语 - 翻译和英语 - 转录版本到英语数据集后的实验重复性。
Dec, 2018
我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。
Oct, 2023
本文提出一种新颖的基于门控神经网络的语音识别模型,采用对话上下文 / 词 / 语音嵌入,结合外部词和 / 或句子嵌入来提高对话上下文表示,从而显著提高单词错误率,对 Switchboard 对话语音语料库的实验表明我们的模型优于标准的端到端语音识别模型。
Jun, 2019
Nugget 是一种将语言编码为基于动态选择的子集输入标记的表示方法,通过自动编码和机器翻译等任务学习这些紧凑单元来直观地将语言分成有意义的单元,并在涉及语义比较的任务中明显优于相关方法,同时该方法还允许扩大语言模型的上下文窗口,为未来的语言模型打开了新的前景。
通过学习对话任务数据的分割而不是使用句子边界的分割方法,我们提出了一种强大的对话合成方法,通过该方法生成的合成数据集在机器和人员评估中表现出优越的质量,同时在 ConvQA 检索系统预训练中使用我们的填充数据,观察到 OR-QuAC 基准测试数据的显著提升。
Jun, 2024