从语言学角度帮助一下:多方随意对话的主题分割
本文在分析当前 NLP 中的主题分割模型的通用性能力时,发现在处理非结构化文本时,预训练策略并没有提高模型在该领域的可迁移性,只用一个相对较小的与目标结构相同的训练集从头开始训练模型,可以显著改善分类结果...
Nov, 2022
我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉熵损失函数的一个强大的替代方案。
Oct, 2023
通过主题分割和话语解析,我们提出了一种无监督的两种结构的互学习框架,以实现对话系统的全局目标和话语策略的一致性。实验结果表明,我们的方法在两个对话话语数据集(STAC 和 Molweni)以及对话主题数据集(Doc2Dial 和 TIAGE)上优于所有强基准模型。
May, 2024
本研究通过人类对自然讲话文本的分段来评估语篇分割与三种语言线索(指代名词短语,提示词和停顿)之间的关联性,并使用信息检索度量对其进行量化分析。
May, 1994
本文提出了一种上下文感知的谈话主题分类方法,通过引入对话上下文和对话行为特征,扩展了神经主题分类和无监督主题关键词检测的先前研究,以提高谈话中的主题识别准确性和预测用户评价指标。
Oct, 2018
提出了采用孪生句子嵌入层的主题分割方法,结合同一主题预测、主题分类和下一句预测等多任务学习技术,实现对 WikiSection 数据集中文档的最新分割结果。
Jan, 2023
这项工作引入了一种无监督的学习层次对话结构的方法,包括对话行为和子任务。结构显示对于三个会话级理解任务,包括对话模型的优化是有用的。此外,通过自动摘要,学习的有限状态子对话网络是可解释的。
May, 2022
我们提出了一种注入了句际依赖结构的话语感知神经主题分割模型,以更好地利用句子之间的主题一致性进行主题边界分割预测,并在英文评估数据集上进行实证研究表明,我们的策略显著提高了神经主题分割器在域内和域外数据上的性能。
Sep, 2022
为了与人类用户进行对话,需要设计能够进行人机交互的机器智能,因此会话建模是自然语言处理中的重要任务。一个新的机器会话模型使用了逐渐构建的句子结构和复杂度的培训方法来模拟人类学习的构建过程,其通过按照先 “短” 后 “长” 的句子对训练,最终比标准文本准备训练的模型具有更低的验证误差。
May, 2023