通过对话题模型进行评估,发现神经网络模型(NTMs)在实际任务中的效果优于传统模型,且自动评估指标无法提供全面的话题建模能力。
Jan, 2024
通过将自动话的一致性与两种最广泛接受的人类判断任务进行比较,我们解决了话题模型评估中的验证鸿沟。与人类评估相比,自动评估宣布了一个获胜模型。
Jul, 2021
我们提出了一种名为 “协调主题建模” 的新问题,旨在通过复用现有知识来更加可解释地表示语料库,并设计了一种基于嵌入式的协调主题模型(ECTM),该模型通过引入主题和文档级别的监督和自训练机制来解决此问题,并在多个领域进行的广泛实验表明我们的模型优于其他基线。
Oct, 2022
本文提出基于神经变分推断的方法,在主题建模的训练过程中融入主题连贯性目标,实现了主题连贯性的增强并保持了低困惑度。
Sep, 2018
本文探讨了如何评估微博聚类的主题连贯性,提供了评估指南和人工评估结果,并研究了不同的自动化评估指标,其中,文本生成指标在捕捉微博聚类的主题连贯性方面最为可靠。
Jun, 2021
该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量,并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示,多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越,并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问,以及审查 NLG 系统的优势和局限性的能力。
May, 2023
本文提出了一种上下文感知的谈话主题分类方法,通过引入对话上下文和对话行为特征,扩展了神经主题分类和无监督主题关键词检测的先前研究,以提高谈话中的主题识别准确性和预测用户评价指标。
Oct, 2018
该研究提出了一种文档的连贯性评估方法(DCoEM),在考虑了四种连贯方式(参考,连词,替换和词汇连贯)的情况下,为测量文档翻译的连贯性做出贡献,并通过最近的文档级 NMT 系统的评估结果表明我们的方法在评估文档级翻译方面是实用和必要的。
Aug, 2022
针对自动化与人工对主题模型的评估之间的关系进行研究,分析了两个与主题模型相关的方面,即它们的稳定性和是否能够与人工确定的分类相匹配,发现神经主题模型在稳定性和对人工分类相匹配方面表现不佳,并通过演示一种简单的集成方法来解决这两个问题。
本文提出了一种修改后的神经模型以检测语料库中主题,并提出了一种新的度量标准来评估检测到的主题。这个新模型建立在嵌入式主题模型的基础上,加入了一些修改,例如文档聚类。数值实验表明,新模型表现良好,而且无论文档的长度如何都表现良好。可以更有效地计算新度量标准,与主题连贯性等广泛使用的度量标准相比,提供了有关检测到的主题可理解性的可变信息。
Jun, 2023