TerraByte客户端:提供访问数千兆字节的植物数据
TERRA-REF项目产生了一项开放式的参考数据集,其中包括高分辨率的传感器数据和超过60种传统的植物表型测量,可以用于训练新的机器学习模型。该研究旨在向计算机视觉和机器学习界提供有关该数据及其潜在应用的概述。
Jul, 2021
本研究分析了 GitHub 平台上的开放数据格局及用户分享数据集的模式,并披露了 GitHub 是世界上最大的开放数据主机之一,研究还公开发布了三个数据集以支持分析。该平台的数据资源对于加速 AI 研究尤为重要。
Jun, 2023
使用Docker和Kubernetes等云原生技术,在Hopsworks平台上实现了一个基于多租户模型的RStudio服务,解决了性能隔离、安全性和扩展性等多租户环境中的问题,并集成了Apache Spark进行大数据处理工作负载,可支持同时运行数百个RStudio服务器的潜力。
Jul, 2023
大型科学合作通常会有多位科学家在进行不同的分析时访问相同的文件集,这会导致对位于远处的共享数据的重复访问。为了减少广域网流量和数据访问延迟,已经安装了区域性数据存储缓存作为一项新的网络服务。通过对南加州的拍字节级缓存进行研究,我们展示了这个缓存系统能够从广域网中减少67.6%的文件请求,并平均每天减少广域网流量量级的12.3TB(或35.4%)。这个缓存系统还实施了一种策略,在处理大文件时避免清除较小的文件。我们还构建了一个机器学习模型来研究缓存行为的可预测性。测试结果显示,该模型能够准确预测缓存访问、缓存未命中和网络吞吐量,使该模型在未来的资源规划和规划研究中非常有用。
Jul, 2023
提出了数据处理流程,包括数据减少的方法,以及应用于可视化预览的多分辨率切片地图、服务器端渲染和直方图滤波等算法,通过评估找到了在保持关键几何信息的前提下将数据减小到兆字节范围的最佳方法。
Nov, 2023
大地科学数据、地理空间基础设施、数据发现、数据管理以及大气科学研究是本论文的关键词,该论文介绍了一个通过云计算原则构建的气象分析系统的实施。
Mar, 2024
本研究解决了在偏远环境中部署长时间运行的传感器设备的能耗问题。通过引入Terracorder及其基于强化学习的调度器,展示了其低功耗特性;该调度器在仅用最佳固定调度活动次数不足50%的情况下,捕获了超过80%的事件。这一协作调度策略显著提升了网络的操作效果,降低了整体能耗并增强了鲁棒性。
Aug, 2024
本文针对远程环境中在地传感装置的高能耗问题提出了Terracorder,这是一种多传感器设备,采用基于强化学习的调度器显著降低能耗。实验显示,该调度器在电池续航方面表现优异,能够在激活次数减少的情况下捕捉超过80%的事件,进一步改善了设备网络的整体能源效率与稳健性。
Aug, 2024