May, 2024

复现一组可控文本生成技术的度量评估

TL;DR重新运行基于指标的评估比人为评估更直接且结果更接近,但在重新运行时不一定会产生与原始结果相同的结果,并且可能揭示原始工作的错误。