- 数据与转换器在音频生成中的驯化
我们提出了两种新模型 AutoCap 和 GenAu 来解决由于数据稀缺和标题质量不足造成的环境声音和效果生成问题,AutoCap 利用音频的元数据显著提高了标题的质量,而 GenAu 则通过使用新数据集进行训练,在生成的音频质量上取得了显 - 数据库增强的信息检索查询表示
利用关系数据库中的元数据和图形集编码策略,我们提出了一种改进了查询性能的检索框架,用于扩展查询并增强信息检索模型。
- 遵规卡:用于自动化 AI 监管遵守的计算工具
通过引入一种高度自动化的系统,我们可以捕获与人工智能系统和模型的合规性相关的数据,并跨越这些数据进行分析,从而加强和加速 AI 法规的合规评估。
- 从像素到散文:一个大规模的密集图像字幕数据集
使用 PixelProse,通过 16M 个合成生成的标题,我们构建了一个详细而准确的图像描述的综合数据集,同时还提供了有价值的元数据,如水印存在和美学评分,以帮助进一步的数据集过滤。
- BTS:基于元数据辅助的呼吸音分类的文本和声音模态的桥接
通过利用呼吸音样本的元数据,我们引入了一个文本 - 音频多模态模型来改进呼吸音分类的性能,并且在治疗临床环境中部分元数据不可用的情况下也进行了研究验证。
- 全球基准数据库
该研究论文介绍了全球基准数据库(GBD),一套完整的工具,用于供应和可持续维护基准实例及其元数据。GBD 的数据模型、接口和示例以及如何与其进行交互,已经通过集成自定义数据源和扩展问题领域、实例格式和特征提取器的方法来进行演示。
- 结构化知识库在大型语言模型中优化元数据整理的应用
通过对 200 个描述肺癌人样本的 NCBI BioSample 数据记录进行实验,评估 GPT-4 对于符合元数据标准的建议编辑能力,并通过同行评审过程计算了字段名 - 字段值对的符合精确度,发现辅助 GPT-4 以 CEDAR 模板的文 - 通过图学习的模型动物园进行模型选择
通过分析预先训练的深度学习模型的元数据,并捕捉模型和数据集之间的内在关系,研究人员提出了一种名为 TransferGraph 的新框架,将模型选择问题重新定义为图学习问题,并在 16 个真实数据集上进行了广泛实验,发现相较于现有方法,Tra - 休斯顿,我们遇到了分歧:ASR 模型的子群绩效分析
该研究探讨了 NASA 阿波罗任务的多话者团队通信潜力,并提取了音频记录的关键元数据,通过分析不同元数据组合的子组的性能差异,研究了自动语音识别方法在阿波罗录音中的可行性和问题,在不同模型和多语言处理上优化了 ASR 系统的性能,为地球与太 - 极端分类的图正则化编码器训练
本研究通过替换图卷积网络为非图卷积网络的架构,利用图数据来规范编码器训练,提出了一种名为 RAMEN 的替代模型,以提高标签极度分类任务的性能,并在基准数据集上获得了高达 15% 的预测准确率提升,同时不增加推断计算成本。
- 跨越因果发现和大型语言模型的桥梁:综合方法与未来方向的全面调研
本文就 LLM(如 GPT4)在因果发现任务中的综合应用进行了全面的调查,系统地回顾和比较了现有的 LLM 利用方法,并强调了它们在推断因果结构中利用元数据和自然语言的创新使用。我们的分析揭示了 LLM 在增强传统 CD 方法和作为不完善专 - 跨语言深情感:多语言词网中情感传播的新方法
本研究介绍了两种新技术(多语言结构化同义词嵌入和跨语言深度神经情感传播),用于自动将情感注释从部分注释的 WordNet 传播到整个 WordNet 以及不同语言的 WordNet。通过对普林斯顿 WordNet 和波兰 WordNet 进 - 从信息流控制的角度重新思考机器学习管道中的隐私
在本文中,我们从信息流控制的角度描述了机器学习系统,利用元数据,如访问控制策略来定义明确的隐私和机密性保证,通过比较两种不同方法,即针对每个用户进行微调模型和在推理时访问用户特定数据集的检索增强模型,我们证明检索增强架构可以在满足严格的非干 - TREC 2023 产品搜索赛道概述
今年是 TREC 产品搜索跟踪的第一年。重点在于创建可重复使用集合,并评估元数据和多模态数据对检索准确性的影响。研究结果显示,在产品搜索领域,传统的检索系统效果非常好,通常优于通用的预训练嵌入模型。我们还评估了使用简化和元数据增强集合的影响 - ML 基础关键短语提取与验证的科学文本自动标注
本文提出了两种新颖的自动文本标注方法用于验证机器学习生成的未标记文本的元数据,特别适用于环境基因组学领域。我们的技术展示了利用未标记文本和科学领域的现有信息的两种新方法的潜力。结果表明,所提出的标签分配方法可以为未标记文本生成通用和高度特定 - 数据湖中的语义数据管理
数据湖系统中的语义数据管理及可扩展性对大数据具有挑战,本研究回顾了最近的方法,重点关注数据湖系统内的应用,涉及基本语义数据管理、丰富数据湖中元数据的语义建模方法和基于本体的数据访问方法,同时指出未来工作中需要更紧密地集成大数据和语义 Web - 利用大型语言模型为主题元数据添加注释:澳大利亚国家研究数据目录的案例研究
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
- BaitBuster-Bangla: 孟加拉语点击标题检测的多特征和多模态分析全面数据集
此研究提供了一个包含 18 个多模式孟加拉语 YouTube 标题党数据集,其中包括来自 58 个孟加拉语 YouTube 频道的 253,070 个数据点。这是迄今为止最大且最强大的孟加拉语标题党语料库,可用于自然语言处理和数据科学研究, - MM将领域知识图融入多模态电影类型分类中的自监督关注和对比学习
利用知识图谱从多个角度探索解决多模态电影类型分类的问题,包括未利用的元数据组关系、可靠的注意力分配以及不可区分的特征融合,通过准备元数据的领域知识图谱,整合不同模态数据,构建可靠的注意力分配和增强特征区分能力的框架,并在两个数据集上进行实验 - 高效的基于内容的时间序列检索系统
我们提出了一种有效且高效的基于内容的时间序列检索模型,超越了其他模型,在提供合理的推理运行时间的同时,展示了解决业务问题的能力。