本文强调数据收集是机器学习中一个被忽视的环节,社会文化机器学习可以从档案馆中汲取数据收集方法的经验,以此提高数据收集的公正性、透明度等方面。
Dec, 2019
通过文本语义的语义注释,研究档案文件的构建框架和技术障碍的解决方案以及实际应用
Mar, 2024
使用机器学习技术对欧洲大学在 1472 年至 1650 年间使用的 359 种印刷教科书中的天文学知识进行深入分析,揭示了历史材料中数学天文学领域的知识和创新在时空进化中的重要方面。
Oct, 2023
该论文介绍了 InterPARES Trust AI(I Trust AI)国际研究合作伙伴的初步成果,旨在通过开发 AI 技术解决关键记录和档案问题、确定在记录和档案上使用 AI 技术的利弊以及确保档案理念和原则指导负责任的 AI 开发并通过一系列案例研究和演示验证结果。
Feb, 2022
提供了一种高效的元数据考古框架,通过使用简单的转换和利用学习动态的差异来揭示和推断数据集中示例的元数据。
Sep, 2022
通过人工智能的对象检测神经网络技术,在考古学目录中快速、自动和标准化地收集数据,同时记录几何整体轮廓。
Nov, 2023
通过对 OCR 进行字符级图像检索建模,解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足,并为社区参与使数字历史更具代表性开辟了新的途径。
Apr, 2023
提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum,集成了多个方面的科学论文摘要,通过对预训练语言模型和最先进的大型语言模型(LLMs)的性能进行广泛实验,探索学术领域中抽取式与生成式摘要的有效性,结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。
该研究提出了利用深度学习框架分类科学图表的流程,通过构建一个包含注释的大规模科学图表库,开创了科学图表自动注释的先河。
Jan, 2023
利用数字档案进行机器学习的新方法,通过光学字符阅读器(OCR)、物体检测器和布局分析器构建数据集,展示其在图像 - 文本检索和洞察力提取方面的有效性。