上下文化主题一致性度量

May, 2023

Contextualized Topic Coherence Metrics

Hamed Rahimi, Jacob Louis Hoover, David Mimno, Hubert Naacke, Camelia Constantin...

TL;DR本研究提出了一种基于 LLM 的方法，受到人类主题评估的启发，实现了语境化主题连贯性（CTC）度量，其在自动化主题连贯性方法方面表现出色，可应用于短文本，并不容易受到高分却无意义的主题干扰。

Abstract

The recent explosion in work on neural topic modeling has been criticized for optimizing automated topic evaluation metrics at the expense of actual meaningful topic identification. But human annotation remains e

neural topic modeling contextualized topic coherence automated methods human annotation coherence evaluation

发现论文，激发创造

超越自动化评估指标：在实践中评估主题模型在社会科学内容分析任务上的能力

通过对话题模型进行评估，发现神经网络模型（NTMs）在实际任务中的效果优于传统模型，且自动评估指标无法提供全面的话题建模能力。

Jan, 2024

自动主题模型评估是否存在问题？：连贯性的不连贯性

通过将自动话的一致性与两种最广泛接受的人类判断任务进行比较，我们解决了话题模型评估中的验证鸿沟。与人类评估相比，自动评估宣布了一个获胜模型。

Jul, 2021

协同主题建模

我们提出了一种名为 “协调主题建模” 的新问题，旨在通过复用现有知识来更加可解释地表示语料库，并设计了一种基于嵌入式的协调主题模型（ECTM），该模型通过引入主题和文档级别的监督和自训练机制来解决此问题，并在多个领域进行的广泛实验表明我们的模型优于其他基线。

Oct, 2022

基于连贯性的神经主题建模

本文提出基于神经变分推断的方法，在主题建模的训练过程中融入主题连贯性目标，实现了主题连贯性的增强并保持了低困惑度。

Sep, 2018

微博中主题连贯性的评估

本文探讨了如何评估微博聚类的主题连贯性，提供了评估指南和人工评估结果，并研究了不同的自动化评估指标，其中，文本生成指标在捕捉微博聚类的主题连贯性方面最为可靠。

Jun, 2021

基于经验的度量偏好清单：超越相关性分析的自然语言生成评估指标

该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量，并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示，多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越，并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问，以及审查 NLG 系统的优势和局限性的能力。

May, 2023

对话系统的上下文主题建模

本文提出了一种上下文感知的谈话主题分类方法，通过引入对话上下文和对话行为特征，扩展了神经主题分类和无监督主题关键词检测的先前研究，以提高谈话中的主题识别准确性和预测用户评价指标。

Oct, 2018

文档级神经机器翻译的话语衔接评估

该研究提出了一种文档的连贯性评估方法（DCoEM），在考虑了四种连贯方式（参考，连词，替换和词汇连贯）的情况下，为测量文档翻译的连贯性做出贡献，并通过最近的文档级 NMT 系统的评估结果表明我们的方法在评估文档级翻译方面是实用和必要的。

Aug, 2022

神经主题模型失效了吗？

针对自动化与人工对主题模型的评估之间的关系进行研究，分析了两个与主题模型相关的方面，即它们的稳定性和是否能够与人工确定的分类相匹配，发现神经主题模型在稳定性和对人工分类相匹配方面表现不佳，并通过演示一种简单的集成方法来解决这两个问题。

Oct, 2022

一种修改后的模型用于从语料库中检测主题并评估主题可理解性的新指标

本文提出了一种修改后的神经模型以检测语料库中主题，并提出了一种新的度量标准来评估检测到的主题。这个新模型建立在嵌入式主题模型的基础上，加入了一些修改，例如文档聚类。数值实验表明，新模型表现良好，而且无论文档的长度如何都表现良好。可以更有效地计算新度量标准，与主题连贯性等广泛使用的度量标准相比，提供了有关检测到的主题可理解性的可变信息。

Jun, 2023