魔幻标记：利用 LLM 维护文档外部标记

MMMar, 2024

魔幻标记：利用 LLM 维护文档外部标记

Magic Markup: Maintaining Document-External Markup with an LLM

Edward Misback, Zachary Tatlock, Steven L. Tanimoto

TL;DR这篇论文研究了使用语言模型在文档中绑定元数据的方法，以实现自动标记和丰富注释的功能，并通过实验验证了系统的准确性和性能。

Abstract

text documents, including programs, typically have human-readable semantic structure. Historically, programmatic access to these semantics has required explicit in-document tagging. Especially in systems where the text has an execution semantics, this means it is an opt-in feature that

text documents semantic structure language models document annotation intelligent agent

发现论文，激发创造

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

LLMs 加速医疗信息提取的注释

使用大型语言模型（LLMs）结合人类专家的方法，快速生成医疗文本注释的地面真实标签，从而减少人工注释负担并保持高准确性，为医疗健康领域的定制自然语言处理（NLP）解决方案提供了潜力。

Dec, 2023

ML 基础关键短语提取与验证的科学文本自动标注

本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据，特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明，所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签，其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。

Nov, 2023

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021

大型语言模型文本标注的最佳实践

本文提出了对大型语言模型（LLMs）的可靠、可重复和符合伦理的使用的全面标准和最佳实践，涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域，强调了对 LLMs 的结构化、有导向性和格式化的使用的需求，以确保文本注释实践的完整性和鲁棒性，并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。

Feb, 2024

LightTag：文本标注平台

该篇论文介绍了一个基于 LightTag 的文本标注工具，其设计和构建基于优化全局 NLP 流程的生产力而非个体标注员的生产效率，并讨论了数据建模和用户界面等方面的决策如何为整个 NLP 生命周期服务。

Sep, 2021

结构化知识库在大型语言模型中优化元数据整理的应用

通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验，评估 GPT-4 对于符合元数据标准的建议编辑能力，并通过同行评审过程计算了字段名 - 字段值对的符合精确度，发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息，从 79% 提高到 97%（p<0.01），结果表明 LLMs 与结构化知识库整合后，可以在自动化元数据管理中显示出希望。

Apr, 2024

通过 LLM 驱动的主动学习和人工标注来增强文本分类

该研究引入了一种新的方法，将人工标注和大语言模型（LLMs）与主动学习框架结合，以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明，在降低数据标注成本的同时，模型准确性得到了保持或提高。

Jun, 2024

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

语言模型实现简单系统，用于生成异构数据湖结构化视图

本文介绍 Evaporate 和 Evaporate-code+ 系统，用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量，并且在处理了一系列文档的情况下达到了比现有技术更好的性能.

Apr, 2023