ACLMar, 2022

FiNER:用于 XBRL 标注的金融数字实体识别

TL;DR进行标记是费时且昂贵的,因此该研究引入了 XBRL 标记作为金融领域新的实体提取任务,并发布了 FiNER-139 数据集,其中包含 110 万句子和黄金 XBRL 标记。该研究表明,采用字母级别的词元分割会损害 BERT 的性能,而采用单词级别的 BILSTMs 的性能更佳。此外,该研究还提出了两种简单而有效的解决方案,以改善 BERT 的性能。最终,该研究通过数据和错误分析确定了潜在的限制,为未来的 XBRL 标记工作提供了启示。