UCR 时间序列档案

Oct, 2018

The UCR Time Series Archive

Hoang Anh Dau, Anthony Bagnall, Kaveh Kamgar, Chin-Chia Michael Yeh, Yan Zhu...

TL;DRUCR 时间序列档案在时间序列数据挖掘社区中已成为重要资源，提供了从 45 到 128 个数据集的扩展，并提供了实用的建议和观点。另外，该论文还指出，许多论文没有正确地归因于分类改善的原因，而只需一行代码即可实现相同的改善。

Abstract

The ucr time series archive - introduced in 2002, has become an important resource in the time series data mining community, with at least one thousand published papers making use of at least one data set from th

time series data mining ucr time series archive algorithm evaluation data expansion classification improvement

发现论文，激发创造

档案馆的教训：机器学习中收集社会文化数据的策略

本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Dec, 2019

理解档案：依赖于文档的语义注释的新研究界面

通过文本语义的语义注释，研究档案文件的构建框架和技术障碍的解决方案以及实际应用

Mar, 2024

使用无监督机器学习和可解释人工智能在超出人类能力范围内对历史来源进行深入分析

使用机器学习技术对欧洲大学在 1472 年至 1650 年间使用的 359 种印刷教科书中的天文学知识进行深入分析，揭示了历史材料中数学天文学领域的知识和创新在时空进化中的重要方面。

Oct, 2023

可信数据永存：人工智能是答案吗？

该论文介绍了 InterPARES Trust AI（I Trust AI）国际研究合作伙伴的初步成果，旨在通过开发 AI 技术解决关键记录和档案问题、确定在记录和档案上使用 AI 技术的利弊以及确保档案理念和原则指导负责任的 AI 开发并通过一系列案例研究和演示验证结果。

Feb, 2022

元数据考古：利用训练动态开掘数据子集

提供了一种高效的元数据考古框架，通过使用简单的转换和利用学习动态的差异来揭示和推断数据集中示例的元数据。

Sep, 2022

AutArch: 考古目录中物体检测和自动记录的 AI 辅助工作流

通过人工智能的对象检测神经网络技术，在考古学目录中快速、自动和标准化地收集数据，同时记录几何整体轮廓。

Nov, 2023

构建多元数字历史的高效 OCR

通过对 OCR 进行字符级图像检索建模，解决了现有体系结构在低资源情况下无法准确识别光学字符识别问题的不足，并为社区参与使数字历史更具代表性开辟了新的途径。

Apr, 2023

ACLSum: 科学出版物面向方面的概述的新数据集

提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum，集成了多个方面的科学论文摘要，通过对预训练语言模型和最先进的大型语言模型（LLMs）的性能进行广泛实验，探索学术领域中抽取式与生成式摘要的有效性，结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。

Mar, 2024

ACL-Fig: 用于科学图像分类的数据集

该研究提出了利用深度学习框架分类科学图表的流程，通过构建一个包含注释的大规模科学图表库，开创了科学图表自动注释的先河。

Jan, 2023

从图书中构建图像与文本对数据集

利用数字档案进行机器学习的新方法，通过光学字符阅读器（OCR）、物体检测器和布局分析器构建数据集，展示其在图像 - 文本检索和洞察力提取方面的有效性。

Oct, 2023