魔幻标记:利用 LLM 维护文档外部标记
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
Oct, 2023
使用大型语言模型(LLMs)结合人类专家的方法,快速生成医疗文本注释的地面真实标签,从而减少人工注释负担并保持高准确性,为医疗健康领域的定制自然语言处理(NLP)解决方案提供了潜力。
Dec, 2023
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定的文本标签,其中有多达 44% 的标签与机器学习关键词提取算法建议的标签匹配。
Nov, 2023
本研究论文探讨了一种名为 MarkupLM 的预训练模型,它能够对 HTML/XML 等标记语言的文档进行理解和分析,相比现有的基于布局的预训练方法,在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明,该预训练模型在多个文档理解任务上,比现有的强基线模型表现更优秀。
Oct, 2021
本文提出了对大型语言模型(LLMs)的可靠、可重复和符合伦理的使用的全面标准和最佳实践,涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域,强调了对 LLMs 的结构化、有导向性和格式化的使用的需求,以确保文本注释实践的完整性和鲁棒性,并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。
Feb, 2024
该篇论文介绍了一个基于 LightTag 的文本标注工具,其设计和构建基于优化全局 NLP 流程的生产力而非个体标注员的生产效率,并讨论了数据建模和用户界面等方面的决策如何为整个 NLP 生命周期服务。
Sep, 2021
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文本描述作为领域信息,从 79% 提高到 97%(p<0.01),结果表明 LLMs 与结构化知识库整合后,可以在自动化元数据管理中显示出希望。
Apr, 2024
该研究引入了一种新的方法,将人工标注和大语言模型(LLMs)与主动学习框架结合,以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明,在降低数据标注成本的同时,模型准确性得到了保持或提高。
Jun, 2024
研究表明,使用语言模型(LMs)可以处理人类编码的文本,通过与人类编码员的比较,我们发现 GPT-3 可以达到与人类编码员相当的表现水平,这为在很多领域中应用语言模型来处理文本提供了证据。
Jun, 2023
本文介绍 Evaporate 和 Evaporate-code+ 系统,用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量,并且在处理了一系列文档的情况下达到了比现有技术更好的性能.
Apr, 2023