ACLMay, 2022
关于多语言少样本学习的经济学:机器翻译和手动数据的成本 - 性能权衡建模
On the Economics of Multilingual Few-shot Learning: Modeling the Cost-Performance Trade-offs of Machine Translated and Manual Data
Kabir Ahuja, Monojit Choudhury, Sandipan Dandapat
TL;DR本研究引用微观经济学中的生产函数理论,在机器翻译和手动标注数据的建模中提出一种系统评估模型性能和成本折衷的框架,并通过 TyDIQA-GoldP 数据集的案例研究证明了该框架的有效性和结论为手动标注数据的性价比优于或至少等于机器翻译。此外,这也是第一次尝试将生产函数理论扩展到 NLP 中的数据收集策略研究,并能为类似的成本 vs 数据折衷问题提供有价值的工具。