May, 2023

MultiTurnCleanup: 多轮口语对话文本清理基准测试

TL;DR本文提出一种具有创新性的 Multi-Turn Cleanup 任务,旨在解决口语对话中多个回合的断续现象对于人类可读性和下游 NLP 任务性能的影响,并采集数据集 MultiTurnCleanup1。研究设计了数据标注模式以收集高质量数据集,并采用两种建模方法作为未来研究的基准进行实验评估。