- 对话篇章解析和主题分割的无监督共学习
通过主题分割和话语解析,我们提出了一种无监督的两种结构的互学习框架,以实现对话系统的全局目标和话语策略的一致性。实验结果表明,我们的方法在两个对话话语数据集(STAC 和 Molweni)以及对话主题数据集(Doc2Dial 和 TIAGE - 语言模型在半结构化和非结构化对话数据集中的主题分割
我们综合分析了现有的最先进主题分割模型在非结构化文本上的泛化能力,并发现充分训练目标非结构化领域的相对较小规模数据集可以显著提高分割结果。在对非结构化和半结构化聊天进行分割时,我们的实证评估表明,Focal Loss 函数是交叉熵和加权交叉 - EMNLP通过增强一致性建模改进长文档主题分割模型
通过对主题感知句子结构预测(TSSP)和对比语义相似度学习(CSSL)的改进,本文提升了监督模型从结构和相似性两个角度捕捉一致性的能力,进而进一步改善主题划分性能。
- 基于超维空间的无监督对话主题切分
HyperSeg 是一种基于超维计算(HDC)的无监督对话主题分割方法,它通过在非常高的维度上随机选择向量的概率正交性来生成丰富的词元表示,从而在话题分割和下游的摘要任务中取得了显著的性能提升,同时具备更快的速度。
- 用于中文文本的主题分段和提纲生成的进展:段落级主题表示、语料库和基准
本文针对中文语料库资源匮乏和段落层面主题表示不足的限制,提出了层级段落主题结构表示方法,并构建了目前规模最大,质量最优的中文语段层级主题结构语料库。同时,本文在话语分析等多项任务上,说明了此语料库在基础、应用领域的可行性及有效性。
- 聊天 GPT 在对话中的话语分析潜力:实证研究
本研究探讨了 ChatGPT 在话语语篇分析中的能力,特别是话题分割、话语关系识别和话语分析三个任务的能力。结合创新的思维链(COT)方法,发现 ChatGPT 对于话题分割有较好的表现,但在话语关系识别和话语分析等较难的任务中有待提高。
- MUG: 通用会议理解和生成基准
本研究旨在促进口语处理技术的发展,建立了一个大规模的 MUG 基准以对广泛的 SLP 任务的性能进行基准测试,包括主题细分、主题和会议层面的摘要和主题标题生成、关键短语提取和行动项检测。
- ICASSP 2023 年总会理解与生成挑战赛 (MUG) 概述
ICASSP2023 General Meeting Understanding and Generation Challenge (MUG) aims to improve users' efficiency in meetings by - AAAI聚焦本地上下文的话题分割模型
提出了采用孪生句子嵌入层的主题分割方法,结合同一主题预测、主题分类和下一句预测等多任务学习技术,实现对 WikiSection 数据集中文档的最新分割结果。
- 野外话题分割:面向半结构化和非结构化聊天分割
本文在分析当前 NLP 中的主题分割模型的通用性能力时,发现在处理非结构化文本时,预训练策略并没有提高模型在该领域的可迁移性,只用一个相对较小的与目标结构相同的训练集从头开始训练模型,可以显著改善分类结果...
- ACL使用词图和 POV 转换的无监督抽象对话摘要
本文利用多句压缩图技术推动无监督抽象对话摘要的研究前沿,通过路径重新排列和主题分段方案提升算法可靠性,并在跨领域数据集上实现算法健壮性。我们还探讨了将深度学习与启发式系统相结合的方案,以提高算法性能。我们开源我们的代码,为未来无监督对话摘要 - 研究文章集的主题划分
该论文通过对网络上论文数据的主题分割,构建出一个包含七百万篇文献数据的多主题数据集,并创建出一套主题分类体系以注释每篇论文的主题归属,从而可以将其作为既包含各学科领域文献数据的异构文献资源集,又可分割为单一研究领域所对应的同质文献集的多主题 - AAAI使用远程监督预测句子上文结构:以主题分割为例
该研究提出了一种利用主题分割技术进行远程监督的方法来解决现代话语解析中由于数据稀缺问题所面临的困境,实验结果表明该方法能够有效地产生准确的树状结构并较之前的方法取得了更高的得分。
- EMNLP人类引导下解释性注意力模式在摘要和主题分割中的应用
该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式,然后注入到原始模型和较小的模型来提高模型的准确性与效率,取得了在提取式摘要和主题分割方面显著提高的结果。
- ACL神经主题分割中上下文建模的改进
本文提出了一个基于层级注意力双向 LSTM 网络的主题分割器,通过添加相干性相关的辅助任务和受限制自注意力来更好地建模上下文,从而超过了 SOTA 方法,并在领域转移设置中证明了其鲁棒性和在多语言场景中的有效性。