- SyROCCo:利用机器学习增强系统性综述
利用机器学习技术帮助系统性综述过程,开发一系列工具以分析与 “基于结果的合同” 主题相关的 1,952 篇出版物,结果显示机器学习技术在提高证据可达性和分析方面具有实用性,但需谨慎应用,克服其潜在的错误和偏差。
- 从无条件扩散模型中提取训练数据
扩散概率模型的记忆化、理论分析、条件记忆化、数据提取、Surrogate condItional Data Extraction (SIDE)
- 利用大型语言模型进行网络抓取
使用已经训练好的大型语言模型与 RAG 模型结合,研究了一种通用准确的数据抓取方法,该方法能够从非结构化文本中提取复杂数据。未来的研究方向包括解决溯源追踪和动态知识更新等挑战,在提取数据的方法和框架方面潜力巨大。
- 使用大型语言模型进行系统综述中的数据提取探索:快速可行性研究
该文章介绍了使用 GPT-4(一个大型语言模型)快速可行性研究来(半)自动化系统性综述中的数据提取,在设计和评估 LLM-based 自动化工具方面仍然存在欠缺的问题。
- 神经网络网页抓取的更清洁预训练语料库的筛选
本文介绍了一种简单、快速、有效的神经网络网页抓取器(NeuScraper),用于从网页中提取主要和干净的文本内容,并通过实验结果显示 NeuScraper 相比基线抓取器的改进超过了 20%,展示了其在提取高质量数据以促进语言模型预训练方面 - 迫使语言模型(LLMs)做和透露(几乎)任何事情
广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标,并对具体例子进行了分类和系统化,如误导、模型控制、服务拒绝或数据提取,并分析了这些攻击的实验结果。
- AutoIE: 从科学文献中自动提取信息的自动化框架
该研究介绍了一种自动提取科学论文中关键数据的创新框架,通过对科学 PDF 文档的布局分析、科学文本的功能块识别、分子筛合成信息的提取和关联以及分子筛文献的在线学习等四个组件的独特集成,实现了对未来研究方向的更易辨析,提高了分子筛合成领域数据 - ESGReveal: 从 ESG 报告提取结构化数据的基于 LLM 的方法
ESGReveal 是一种创新方法,利用大型语言模型(LLM)结合检索增强生成(RAG)技术高效提取和分析企业报告中的环境、社会和治理(ESG)数据,满足可靠的 ESG 信息检索的紧迫需求。它能够精确提取数据并分析披露,为企业可持续发展提供 - 基于区域细化框架的科学文档物体识别
通过基于规则的区间分割和文本块分类的方法,我们提出了一种新的科学文档布局分析框架 CTBR(Compartment & Text Blocks Refinement),用于从科学文档中提取数据和实现对象识别。
- 大型语言模型是否能够取代人类进行系统评述过程?评估 GPT-4 在筛选和提取多语种同行评议和灰色文献中的数据的效力
这项研究通过对 GPT-4 在标题 / 摘要筛选、全文审查和数据提取等不同文献类型和语言上的性能测试,发现虽然 GPT-4 在大多数任务上的准确性与人工表现相当,但结果受到偶然一致性和数据集不平衡的影响。调整了这些因素后,GPT-4 在数据 - 若语源能言:评估大型语言模型在历史研究辅助中的应用
通过给强大的大型语言模型(LLM)增加来自高度专业化学术源的向量嵌入,我们展示了一种基于对话的方法可以使历史学家和其他人文学科的研究人员能够使用 LLMs 来检查不同类型文档的自定义语料库,并评估了 LLMs 在问题回答和数据提取组织两大任 - 使用 YOLOv5 布局检测揭示文档结构
本研究使用 YOLOv5 模型来快速识别文档布局并提取非结构化数据,为解决处理非结构化数据的问题建立了概念框架并展示了其显著的性能,从而提高了数据提取的效率。
- 监控 AI 流程
通过对计算机视觉研究论文和专利的深入内容分析,揭示了计算机视觉与大规模监控之间的紧密联系,呈现了监控人工智能 (Surveillance AI) 的拓扑结构,以及其数据提取、数据转移和机构数据使用方面的普遍特征。
- 材料图形数字化
我们开发了 MatGD(材料图形数字化工具),该工具用于从科学图形中提取数据线。该工具的算法包括四个步骤:(1)识别子图中的图形,(2)分离轴和数据部分,(3)通过消除不相关的图形对象并与图例进行匹配来识别数据线,(4)数据提取和保存。通过 - ICML从数据泄露和遗忘中对法律的启示
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 - ACL伦理学家:基于损失平滑的软提示和校准置信度估计的有针对性训练数据提取
提出了一种名为 Ethicist 的方法,通过平滑丢失软提示和校准置信度估计来实现针对性的训练数据提取,探究在给定前缀的情况下如何恢复训练数据中的后缀。展示了 Ethicist 在最近提出的公开基准测试中显著改善了提取性能,并研究了解码策略 - 科技文献中图形分类技术综述
本综述论文系统地将图形分类为五类,包括表格、照片、图表、地图和绘图,并对解决图形分类问题的现有方法和数据集进行了批判性评论。最后,找出了当前研究的差距,并提供了进一步研究图形分类的可能方向。
- FANET 实验:与图像处理系统连接的实时监控应用
本文旨在使用图像增强技术提高 FANET 应用的效率,在油管监控、体育比赛和媒体报道等领域提供有效服务。通过收集视频无人机采集的图像数据和图像处理系统的分析,证明了 FANET 中有效数据提取和增强的潜在服务。
- LineFormer:重新思考线图数据提取 —— 作为实例分割
本文提出了一种基于实例分割的数据线提取方法(LineFormer),在多个基准数据集上取得了最优性能,是提高自动文档理解中数据抽取的关键技术之一。
- 使用 SQL 查询大型语言模型
使用大语言模型和 SQL 查询从自然语言文本中提取数据和查询,是信息检索和处理的新方向并带来了新的挑战和机遇。