在政治学中利用大型语言模型进行模糊字符串匹配
采用自然语言处理技术中的大型变形器模型,对政党政治纲领进行相似度测量,并分析它们与专家调查、选民投票记录及候选人网络等指标的相关性,考虑了这种方法替代专家判断的前景。
Jun, 2023
本研究旨在解决 fine-tuned 神经语言模型在特定应用中的文本表示优化问题,结合德国政党清单,通过使用基于文档结构启发式策略、最大化党内相似性及标准化等一系列措施,实现对政党相似性的可靠预测,无需人工注释。
Oct, 2022
通过预定义一组与任务相关的关系,我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”,以解决匹配中的模糊性,从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。
Mar, 2024
通过使用大型语言模型 (LLMs) 进行实体匹配,我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估,在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果,我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto),达到约 90% 的 F1 分数,而在上下文学习和规则生成方面,除了 GPT4 之外,所有模型都从这些技术中受益(平均 F1 分数提高了 5.9% 和 2.2%),大多数情况下 GPT4 无需额外的指导。
Oct, 2023
实体匹配是数据集成中的关键任务,本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向,同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。
May, 2024
本文研究了大型语言模型在实体解析过程中的潜力,包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性,并提出了一种选择最有效匹配问题的策略,同时限制消耗预算,以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果,实验结果证明了我们提出的方法的效率和有效性,为实际应用提供了有希望的前景。
Jan, 2024
该论文介绍了一种基于多模型非线性融合的新模型,通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度,输入加权向量到全连接神经网络,从而降低特征提取的细粒度,全局把握句子特征。实验结果表明,句子相似度计算方法的匹配率为 84%,模型的 F1 值为 75%。
Feb, 2022
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
利用大型语言模型(LLMs)进行临床试验匹配在扩展规模中取得了积极的初步结果,特别在结构化患者信息和筛选患者 - 试验候选人方面起到了初步的解决方案作用。
Aug, 2023