自动主题模型评估是否存在问题？：连贯性的不连贯性

Jul, 2021

自动主题模型评估是否存在问题？：连贯性的不连贯性

Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence

Alexander Hoyle, Pranav Goel, Denis Peskov, Andrew Hian-Cheong, Jordan Boyd-Graber...

TL;DR通过将自动话的一致性与两种最广泛接受的人类判断任务进行比较，我们解决了话题模型评估中的验证鸿沟。与人类评估相比，自动评估宣布了一个获胜模型。

Abstract

topic model evaluation, like evaluation of other unsupervised methods, can be contentious. However, the field has coalesced around automated estimates of topic →

topic model evaluation automated estimates neural topic models coherence human experimentation

发现论文，激发创造

神经主题模型失效了吗？

针对自动化与人工对主题模型的评估之间的关系进行研究，分析了两个与主题模型相关的方面，即它们的稳定性和是否能够与人工确定的分类相匹配，发现神经主题模型在稳定性和对人工分类相匹配方面表现不佳，并通过演示一种简单的集成方法来解决这两个问题。

Oct, 2022

超越自动化评估指标：在实践中评估主题模型在社会科学内容分析任务上的能力

通过对话题模型进行评估，发现神经网络模型（NTMs）在实际任务中的效果优于传统模型，且自动评估指标无法提供全面的话题建模能力。

Jan, 2024

上下文化主题一致性度量

本研究提出了一种基于 LLM 的方法，受到人类主题评估的启发，实现了语境化主题连贯性（CTC）度量，其在自动化主题连贯性方法方面表现出色，可应用于短文本，并不容易受到高分却无意义的主题干扰。

May, 2023

基于连贯性的神经主题建模

本文提出基于神经变分推断的方法，在主题建模的训练过程中融入主题连贯性目标，实现了主题连贯性的增强并保持了低困惑度。

Sep, 2018

冰山之尖外：文本分类器的连贯性评估

通过一种新的预测一致性评估框架来评估大规模预训练语言模型的能力，该框架可以快速、有效地提供对机器预测一致性的见解。

Sep, 2021

自动一致性评估的新型计算和建模基础

该论文提出了一种正式和计算的口头表达的一致性的设置和评估方法，该方法通过联合训练多种任务的模型，在评估一致性的各个任务上表现出更好的性能，为大规模自动评估一致性提供了坚实的基础。

Oct, 2023

使用大语言模型重新审视自动主题模型评估

利用大语言模型自动评估主题模型，以解决自动评估和确定最佳主题数量的问题，并使用文档标记自动确定最佳主题数量。

May, 2023

基于合成语料的主题建模算法新评估框架

该论文提出了一种基于合成语料库的新框架，用于评估概率主题建模算法，通过比较标记在标记级别上的指定主题标签，能够量化种植和推断主题结构之间的一致性。通过实验，揭示了主题模型的相对强度随语料库特征变化的新见解，并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。

Jan, 2019

如何找到强的摘要连贯性度量？用于摘要连贯性度量评估的工具箱和比较研究

本文介绍了自动评估摘要连贯性的意义，通过介绍不同的模型来建立摘要连贯性，并且引入了两种新的分析度量，即内部系统相关性和偏差矩阵，利用它们可以识别出一些偏见，并提供对系统级混淆的鲁棒性。虽然目前可用的自动连贯度量不能对所有评价指标的系统摘要分配可靠的连贯度得分，但是大型自然语言模型在自我监督任务上进行微调，表现出良好的结果，只要微调考虑到它们需要跨不同的摘要长度进行泛化即可。

Sep, 2022

利用蕴涵关系评估对话系统中的一致性

本文提出了基于分布式句子表示的可解释计算指标，用于评估开放领域对话系统的主题、话题的连贯性，减少了人工判断实验的时间成本和不可伸缩性，并结合先进的蕴含技术，介绍了可计算的人工判断形式，实现了对大规模数据集上对话质量的无偏估计。

Apr, 2019