在政治学中利用大型语言模型进行模糊字符串匹配

Mar, 2024

在政治学中利用大型语言模型进行模糊字符串匹配

Leveraging Large Language Models for Fuzzy String Matching in Political Science

Yu Wang

TL;DR使用大型语言模型可以解决模糊字符串匹配问题，进而改善政治学家在不同来源数据结合时的匹配准确性，通过增强提示进一步提高性能。

Abstract

fuzzy string matching remains a key issue when political scientists combine data from different sources. Existing matching methods invariably rely on string distances, such as Levenshtein distance and cosine simi

fuzzy string matching political scientists large language models entity matching enhanced prompting

发现论文，激发创造

机器学习和统计方法用于衡量政党相似度

采用自然语言处理技术中的大型变形器模型，对政党政治纲领进行相似度测量，并分析它们与专家调查、选民投票记录及候选人网络等指标的相关性，考虑了这种方法替代专家判断的前景。

Jun, 2023

优化文本表征以捕捉政党间的 (不) 相似性

本研究旨在解决 fine-tuned 神经语言模型在特定应用中的文本表示优化问题，结合德国政党清单，通过使用基于文档结构启发式策略、最大化党内相似性及标准化等一系列措施，实现对政党相似性的可靠预测，无需人工注释。

Oct, 2022

利用大型语言模型进行关系发现来消除实体匹配的歧义

通过预定义一组与任务相关的关系，我们的方法将重点从纯粹识别语义相似性转移到理解并定义实体之间的 “关系”，以解决匹配中的模糊性，从而使分析员能够更有效地浏览从完全匹配到概念相关实体的相似性范围。

Mar, 2024

利用大型语言模型进行实体匹配

通过使用大型语言模型 (LLMs) 进行实体匹配，我们对可托管的 LLMs (如 GPT3.5 和 GPT4) 以及基于 Llama2 的开源 LLMs 进行了评估，在零 - shot 场景和有任务特定训练数据的场景中比较了不同的提示设计以及模型在零 - shot 场景中的提示敏感度。根据实验结果，我们发现 GPT4 在没有任务特定训练数据的情况下在三个基准数据集上优于精调的 PLMs (RoBERTa 和 Ditto)，达到约 90% 的 F1 分数，而在上下文学习和规则生成方面，除了 GPT4 之外，所有模型都从这些技术中受益（平均 F1 分数提高了 5.9% 和 2.2%），大多数情况下 GPT4 无需额外的指导。

Oct, 2023

利用大型语言模型进行实体匹配

实体匹配是数据集成中的关键任务，本文探讨了将大型语言模型应用于实体匹配的优势、挑战和未来研究方向，同时回顾了关于弱监督和无监督方法在实体匹配中的应用以及大型语言模型如何增强这些方法。

May, 2024

利用大型语言模型提升实体解析技术

本文研究了大型语言模型在实体解析过程中的潜力，包括利用语言模型的优势以及大规模匹配所涉及的计算复杂性，并提出了一种选择最有效匹配问题的策略，同时限制消耗预算，以减少实体解析的不确定性。通过熵作为度量标准评估我们的方法的效果，实验结果证明了我们提出的方法的效率和有效性，为实际应用提供了有希望的前景。

Jan, 2024

使用大型语言模型匹配表格元数据与业务词汇

使用大型语言模型的方法，无需手动调整，能够匹配表格元数据和业务词汇，从而实现对结构化数据的检索和分析。

Sep, 2023

基于多模型精细非线性融合的语义相似度计算模型

该论文介绍了一种基于多模型非线性融合的新模型，通过使用基于词性、TF-IDF 和 word2vec-CNN 算法的 Jaccard 系数来分别衡量句子的相似度，输入加权向量到全连接神经网络，从而降低特征提取的细粒度，全局把握句子特征。实验结果表明，句子相似度计算方法的匹配率为 84%，模型的 F1 值为 75%。

Feb, 2022

使用大型语言模型丰富机器学习数据集文档

本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度，并将其用于丰富数据集描述的方法。通过此方法，可以创建机器可读的文档，改善数据集的可发现性，评估其符合当前的 AI 法规，并改善对其训练的 ML 模型的整体质量。

Apr, 2024

利用大型语言模型扩展临床试验配对：一个肿瘤学案例研究

利用大型语言模型（LLMs）进行临床试验匹配在扩展规模中取得了积极的初步结果，特别在结构化患者信息和筛选患者 - 试验候选人方面起到了初步的解决方案作用。

Aug, 2023