Jul, 2024

貌似很瞒人:区分重复断裂与复制

TL;DR本篇论文通过使用计算语言学对语音中的重复和复述进行了首次大规模研究,提出了一个新的公开数据集IndicRedRep,其中包含用印地语、泰卢固语和马拉地语进行的重复和复述的词级注释。我们通过使用Reparandum-Interregnum-Repair结构对多类别重复和复述令牌进行变压器模型评估,实现了印地语、泰卢固语和马拉地语中高达85.62%、83.95%和84.82%的宏F1分数的重复-复述分类。