- ACL跨语言零射击泛化在指令调整中的深度探索
通过跨语言调整指令和数据获取方法,研究表明对未知任务的指令调优在英文和韩文方面都取得了显著的改善效果,与单语指令调优相当甚至有些任务超过,强调了在指令调优过程中通过跨语言数据获取的相关性和语言一致性的重要性。
- 基于机器学习的智能化学纯化技术
通过发展自动化平台和应用先进的机器学习算法,本研究通过预测模型来提高色谱过程的效率和质量,使用转移学习技术可以适应不同的柱规格,为传统色谱学挑战提供可扩展的解决方案。
- COLING一种新的大规模多语言数据集用于高性能语言技术
我们介绍了 HPLT(高性能语言技术)语言资源,这是一个包括来自 CommonCrawl 和互联网档案的先前未使用的网络爬取的单语和双语语料库的大规模多语言数据集。我们描述了我们采集、管理和处理大型语料库的方法,这些方法依赖于开源软件工具和 - 妇科癌症组织亚型的稀疏数据快速高光谱光热中红外光谱成像
通过稀疏成像方法,将中红外光热成像技术应用于卵巢癌检测,实现了数据采集速度提升 10 倍,并利用随机森林和卷积神经网络模型对超过 65 百万个数据点进行了分析,证明了该方法能够产生优秀的图像质量,并以超过 95% 的分割准确率准确区分不同的 - 生态应用中的 LiDAR 数据采集和处理
采集生态数据,使用低成本 TLS、激光雷达传感器和数据处理机制,通过密度变化直方图计算植被结构复杂度指标,并与现场数据一致。
- PosCUDA: 基于位置的卷积用于无法学习的音频数据集
使用 PosCUDA 创建的音频数据集可以实现无法学习性,并保持原始音频数据集的质量。
- 跨语言摘要的自动数据检索
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方 - 情感分类中的主题偏见
我们研究了情绪语料库中存在的主题偏差以及相关的建模方法,并发现通过对抗性修正可以缓解此问题。我们的研究指出现有情绪语料库存在问题,并且需要更具代表性的资源来进行情感概念从文本中预测的公平评估。
- 基于导数感知高斯过程的突变点检测的主动学习
引入 Derivative-Aware Change Detection (DACD) 方法,通过使用高斯过程(GP)的导数过程进行主动学习(AL),以有效确定变点位置。DACD 通过多个数据采集函数(AFs)平衡导数过程的开发和探索,并利 - 数据采集:面向数据中心的人工智能的新领域
通过对当前数据市场的调查,揭示了缺乏提供有关数据集的详细信息、透明定价和标准化数据格式的平台,进而提出了基于数据提供者和获取者之间互动建模的 DAM 挑战,验证了在机器学习中有效的数据获取策略的需求。
- IMJENSE:并行磁共振成像中联合线圈灵敏度和图像估计的扫描特定隐式表示
并行成像是一种常用的技术,用于加速磁共振成像(MRI)数据采集。本研究介绍了 IMJENSE,一种基于扫描特定的隐式神经表示方法,用于改善并行 MRI 重建。通过利用内部信息和部分采集数据的物理特性来生成所需对象,IMJENSE 采用连续表 - 紫罗兰:一种基于 Gemini 解码器的阿拉伯语图像描述的视觉语言模型
基于图像编码器和 Gemini 文本解码器的视觉 - 语言模型 Violet,通过从现有英文数据集中自动获取数据,并手动准备新的数据集进行评估,显著提高了在所有评估数据集上的性能。
- 有效微调 LLM 的多维数据精炼策略
这篇论文介绍了在获取足够数据用于微调越南语言模型时所面临的挑战,以及使用这些数据进行微调得到的越南语模型的良好性能,提供了针对将来微调越南语等语言模型的实际解决方案和指导。
- 城市空气质量分析的机器学习:综述
通过机器学习模型,本文提供了一份综合的调研报告,涵盖了空气质量分析的各个方面,从数据采集到预处理,并包括污染模式挖掘、空气质量推断和预测等分析任务。同时,给出了对现有方法和应用的系统分类和总结,并提供了一份公开可用的空气质量数据集列表,以便 - 超越标签神谕:窃取机器学习模型的意义是什么?
以查询访问方式为前提设计的模型提取攻击旨在通过机器学习即服务提供商所提供的 API 获取已训练模型,该攻击的主要动机在于以比重新训练模型更低的成本获取模型。然而,我们的研究显示,攻击者常常无法节约数据采集和标注成本,并且攻击成功与攻击者的先 - DEUX: 主动探索学习无监督深度感知
通过对机器人导航视角下利用三维交互环境收集数据进行深度完成学习的研究,我们评估了四个深度完成模型,并发现数据的采集方式对模型性能具有直接的积极影响。因此,我们提出了一种基于深度不确定性的主动任务导向的深度完成学习方法(DEUX),通过使用我 - 基于变分分布先验和显著性地图回放的连续三维重建融合
单图像三维重建是一个研究挑战,针对从单视图图像预测三维物体形状的任务。本文提出了一种基于持续学习的三维重建方法,通过使用变分先验设计模型,即使在训练新类别后仍能合理地重建以前见过的类别。这种方法利用变分先验表示抽象形状以防止遗忘,并利用显著 - 利用模拟校准兽医医学实际数据采集
使用仿真环境进行数据采集和诊断的创新性研究,特别关注于犬只的步态分析。该研究利用 Blender 和 Blenderproc 库生成反映不同解剖学、环境和行为条件的合成数据集。通过图形表示和标准化以实现最佳分析,利用生成的数据集来训练机器学 - IMPTC 数据集:基础设施下的多人轨迹和上下文数据集
通过使用受智能公共城市交叉口内的视觉传感器技术的德国,加上多视角相机和雷达系统感知交通情况和道路用户的行为等多种传感器来收集数据,以完整掌握场景信息并提供基础训练算法,在自动交通中实现了文中所提出的智能公共城市交叉口,用以扩展驾驶员和车辆感 - 跨源点云配准:挑战、进展与前景
本文系统回顾了 CSPC(Cross-source Point Cloud)配准的特点,关键挑战,研究进展和应用领域,并讨论了该领域的重要研究方向和多个传感器结合优势。