Apr, 2023

不使用字典创建自定义事件数据:一些技巧

TL;DR本文介绍了基于最新自然语言处理技术的有效定制事件数据集制作的“窍门”,并提出了训练事件类别分类器、使用大型语言模型和标准机器学习分类器识别文本中的行动者和接收方、将演员的提及解析到其维基百科文章以对其进行分类等各种技术。通过举例,我们展示了这些技术如何产生新的POLECAT全球事件数据集,以取代ICEWS,并快速制作小型、定制的事件数据集。最后,我们公布了实现上述新技术的代码和模型。