- LITA:语言教导的时域定位助手
提出了 Language Instructed Temporal-Localization Assistant (LITA) 方法,通过引入时间标记、SlowFast 标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在 - 心力衰竭患者治疗路径的过程感知分析:一个案例研究
通过对稀疏心衰患者数据集进行处理挖掘和决策挖掘,本研究探讨了在医疗保健领域处理不同类型数据的各种挑战,并分析了患者心衰数据中与多个研究问题相关的信息增益和决策结果。
- 图神经网络中的不确定性研究
通过综述现有的图卷积神经网络预测不确定性理论与方法,以及相关任务,我们主要关注不确定性的集成,这旨在增强模型性能与预测可靠性,从而桥接理论与实践,并连接不同的图卷积神经网络社区,同时为这个领域提供了有价值的研究方向。
- 使用上下文无关文法自动生成 Python 程序
近年来,数据作为新的黄金崛起,成为创建智能系统的强大工具。我们开发了 TinyPy Generator,这是一个使用上下文无关文法生成随机 Python 程序的工具。生成的程序通过构建保证正确。我们的工具可以轻松地大规模生成 Python - 环境洞察:通过开源 Python 软件包向大众提供环境空气污染数据和预测分析
环境遗产是一个开源的 Python 软件包,用于获取历史空气污染数据、使用机器学习模型预测未来情况,并通过动态可视化工具促进分析结果的传播和用户参与。
- 通过定制损失函数获取约束的深度神经网络
使用基于深度神经网络和符号回归的新方法,可以直接从数据集中提取约束条件。该方法可以实现约束条件的直接表达,并可与其他框架进行扩展和连接。
- Birbal: 使用精选数据集进行高效的 7B 指令模型微调
LLMOps 成本高、透明度低、模型训练方法和数据缺乏一致性,为解决这些问题,LMM Efficieny Challenge 提出了在有限时间内利用单一 GPU 对基础模型进行微调的任务,研究介绍了 Birbal,该模型经过精心设计的指导说 - DAGnosis: 使用结构局部识别数据不一致
使用有向无环图 (DAGs) 编码训练集的特征概率分布和独立性的方法 (DAGnosis) 能识别和处理数据在部署时的不一致性问题,并解决了数据中心方法在特征具有统计独立性的情况下的子优化问题,同时定位了为何样本会因不一致性而被标记的原因, - 检索增强生成(RAG)中隐私问题的探索
使用检索增强生成(RAG)技术可以增强具有专有和私有数据的语言模型,在这种情况下,数据隐私是关键问题。本研究对检索增强生成系统进行了广泛的实证研究,并提出新的攻击方法来揭示其对私有检索数据库的泄露漏洞。尽管 RAG 技术存在新的风险,但它可 - WWW快速检查等效性:信息引导机制的可解释度度量
通过协调不同的度量标准,本论文将展示两种度量标准事实上在某些情况下相同,并解释第三种度量标准的差异。此外,引入 “Spot Check Equivalence” 以统一这些不同的上下文,并提出了计算其效果的两种方法。模拟结果验证了我们提出度 - 学习可解释概念:统一因果表示学习与基础模型
通过结合因果表示学习和理解如何从数据中学习可理解概念的思想,本研究正式定义了一个概念的概念,并证明了它们可以从多样数据中被可靠地还原,合成数据和大型语言模型上的实验表明了我们统一方法的实用性。
- 利用 NVIDIA FLARE 增强大规模模型的联合学习
使用 NVIDIA FLARE 进行联邦学习,以解决人工智能和大型语言模型中数据处理和利用的关键挑战,从而提高自然语言处理和生物制药应用的准确性和鲁棒性。
- 基于 V2X 的隐私保护联邦测量与学习系统
未来的自动驾驶车辆将使用各种传感器生成大量数据,该研究论文提出了一种联邦测量和学习系统,通过车辆间通信提供实时数据,并通过车辆到网络链接运行联邦学习方案来创建交通网络的预测模型。研究结果表明,该方案能够提高学习性能并防止聚合服务器侧的窃听。
- 遮挡人体姿态估计的全面框架
本文提出了一个综合框架 DAG (Data, Attention, Graph),用于解决因遮挡引起的性能降级问题。通过模拟遮挡场景,引入了掩蔽关节与实例粘贴数据增强技术;通过自适应判别注意力模块 (ADAM) 有效增强目标个体的特征;通过 - dIR -- 离散信息检索:使用大型语言模型对非结构化(和结构化)数据进行对话式搜索
dIR 是一种离散信息检索方法,利用大语言模型(LLM)将文本转化为表达性的表示形式,并通过文本到 SQL 的语义解析器进行查询。该方法使得在自由文本上进行新一类查询成为可能,相较于传统的经过精细调整的密集嵌入模型和基于 SQL 的知识库。
- 通过高效神经搜索发现可解释的类别特定模式
通过提取差异模式的数据中的 DIFFNAPS,我们提出了一种新颖的、固有可解释的二进制神经网络架构,该架构能够处理大规模应用中的差异模式,显示出准确、简明和可解释的类别描述。
- 我需要多少数据?一项有关医疗数据的案例研究
数据采集和深度学习网络训练消耗巨大的工作量和资源,在医疗领域尤为明显,需要侵入性的医疗程序或可能导致医学危害的过程,然而深度学习被视为数据需求量大的方法。在本研究中,我们评估了六个医疗数据集和六个通用数据集,训练 ResNet18 网络在这 - 联邦学习与物联网设备部署的原型
在技术时代,数据是一种越来越重要的资源。本文介绍了使用树莓派开发的联邦学习(FL)解决方案原型,通过测试其性能和可用性证明了这些技术的可行性,尽管在许多情况下它们没有达到传统方法的性能水平。
- 法律要求分析
现代软件是许多学科和应用环境中日常活动的重要组成部分。通过利用人工智能引入智能自动化在许多领域取得了突破。人工智能的有效性可以归因于诸多因素,其中之一是数据的不断增加。监管框架(如欧洲联盟的常规数据保护条例)出台以确保个人数据的保护。收集、 - 迈向知识图谱模式收集、分析和嵌入的网关
LiveSchema 是一个旨在利用现有的本体论和知识图谱等关系数据资源的网关,并提供了聚合其他源目录和仓库、查询、转换为概念分析矩阵以及生成模型和张量的功能。