May, 2024

学术文件中的软件提及检测的 Falcon 7b

TL;DR通过研究 Falcon-7b 在学术文本中检测和分类软件提及的应用,本研究的主要目标是解决软件提及检测在学术出版物中的子任务一,即从学术文献中识别和分类软件提及。通过综合实验,本论文探讨了不同的训练策略,包括双分类器方法、自适应抽样和加权损失缩放,以提高检测准确性并克服类别不平衡和学术写作的复杂语法等问题。研究结果强调了选择性标注和自适应抽样在改善模型性能方面的益处。然而,研究还表明,整合多种策略并不一定会累积改进。该研究为特定任务如 SOMD 的大型语言模型的有效应用提供了见解,突出了解决学术文本分析中所面临的独特挑战的个性化方法的重要性。