- AAAI一种基于物品特征的 NFT 藏品推荐系统
本文介绍了一种用于 NFT 的推荐系统,利用了各种数据来源,从 NFT 交易记录到外部项目特征,生成符合个人偏好的精确推荐。我们开发了一种数据高效的基于图的推荐系统,以有效捕捉每个项目与用户之间复杂的关系并生成节点(项目)嵌入,融合了节点特 - 大语言模型与用户信任:聚焦于医疗保健
论文探讨了临床医师对 LLMs 的信任与数据来源从人生成为 AI 生成内容的演变关系,并随之对 LLMs 的准确性和临床医师能力的影响。关注的其中一个主要问题是随着 LLMs 对其输出越来越依赖于学习,可能导致输出质量的降低和临床医师技能的 - 利用大数据进行公共卫生决策的影响
利用新的数据来源和人工智能方法,研究街景图像及其对社区健康结果的影响,发现数据的健壮性和模型规范性对有效分配干预措施至关重要。
- 实验室大鼠自动癫痫检测的多模态机器学习框架
该研究论文提出了一种多模态机器学习系统,通过结合来自多个独特数据源和类型的结果以提高性能。通过对癫痫大鼠收集的多种类型的数据进行训练和分类,论文表明通过后处理和组合技术,该系统在分类准确性方面优于每个单独数据源的性能。
- 基于图的主动学习实体簇修复
本研究介绍了一种利用相似性图派生的图度量构建分类模型来区分正确和错误边缘的新型聚类修复方法,并且通过集成适用于聚类特定属性的主动学习机制来解决有限训练数据的挑战。该方法在处理包含重复数据的数据集时展示了出色的性能,突显了它在此类场景中的有效 - 药物发现知识图谱的自然语言处理:前景与风险
通过自然语言处理从科学文献中挖掘非结构化文本作为知识图谱的数据源,探讨了利用自然语言处理构建和分析知识图谱在药物发现领域的前景和陷阱。
- 数据科学、机器学习和人工智能数据源总览
数据科学、机器学习和人工智能的最新进展,如大型语言模型的出现,正在导致对可由这些模型处理的数据的不断增加需求。尽管数据来源是应用特定的,而且不可能提供详尽无遗的数据来源清单,但提供一份涵盖多个应用领域的(必然不完整的)数据源列表或综合手册仍 - 智能交通的人工智能
AI-driven smart transportation systems can improve efficiency and increase utilization by addressing primary requirement - 股票价格预测中知识获取和整合的方法:一项调查
预测股票价格是一个具有挑战性的研究问题,由于股市的固有波动性和非线性特性。最近,知识增强的股票价格预测方法通过利用外部知识来理解股市,取得了突破性的成果。尽管这些方法的重要性,但从外部知识类型的角度系统地综合以前的研究工作还是相对稀缺。具体 - 通过最优输运实现性能扩展:从部分公开的来源中选择数据
提出了一个名为 <projektor> 的框架,通过采用两阶段的性能推断过程,基于现有的样本数据来源,预测模型表现并支持数据选择决策。通过在多个应用程序上的评估表明,<projektor> 在性能推断的准确性和性能预测的构建成本方面显着提高 - 验证神经模型训练数据的工具
为了评估神经模型的能力和风险,我们引入了一种名为 “Proof-of-Training-Data” 的概念,该概念包括了一些协议,使模型训练者能够向验证者证明所产生的一组模型权重的训练数据。我们研究了与大部分当前的大型模型训练程序兼容的 P - 在在线分配中平衡价格与数据质量以实现公平
本文探讨了在不观察个体保护属性的情况下,使用不同质量的数据源估算这些属性以降低公平惩罚的在线分配问题,并提出了一种在多臂赌博问题的框架下同时解决两个问题的算法,该算法可以适应多种不同的公平概念,并且在一些情况下可以学习使用的估计值。
- 谢菲尔德参加美洲本土语言机器翻译共享任务
本文介绍了谢菲尔德大学针对 2023 年的 AmericasNLP 机器翻译大赛中,从西班牙语翻译成 11 种土著语言的参赛方案,使用不同变体的 NLLB-200 进行扩展,训练和组合,包括组成,手册,新闻文章和单语数据生成的回译数据。 在 - 机器学习时代的官方统计数据源变更
本文旨在介绍与数据源变化相关的机器学习应用于官方统计数字时存在的主要风险、责任和不确定性,并提供一份最普遍的变化数据源的清单、更加健壮的数据来源和检查技术、以及全面监测等预防措施,以确保基于机器学习的官方统计数字具有完整性、可靠性、一致性和 - 使用开放词汇部分分割技术实现更密集的结果
本文提出了一个具有部分分割能力的检测器,可以通过多粒度对齐来预测开放词汇的物体和它们的部件分割,并通过密集语义对应将新物体解析为其部件。该方法在不同数据集上的实验表现优于基线方法,并且具有更好的数据通用性。
- 重新审视用于具有视觉丰富度文档的表格检测数据集
本文提出了一种新的数据集 Open-Tables 和 ICT-TD,利用领域专家指导手动注释,清理了现有数据集中的噪声,并将注释定义进行了统一,结果表明这些新数据集更适合交叉领域设置,可提供高质量和一致性注释,更可靠地进行模型评估。
- 2020-2022 年间金融时序预测的深度学习技术进展综述
本文综述了近年来 2020 至 2022 年关于利用深度学习模型基于金融时序数据预测价格的研究,包括不同数据源和神经网络结构的实现细节,旨在让研究人员了解该领域最新进展,方便选择先前研究中使用的模型基线,并提供未来研究建议。
- 利用元机器学习在商业网络中实现跨组织分析
该篇论文提出了一种元机器学习方法,以应对业务网络中的数据共享问题,这一方法能够维护数据机密性,限制数据传输量,并展示出优于传统分析和接近理想共享情况的性能,因此可以有效地挖掘分散在网络中的数据潜力。
- ACL自然语言推理的多源主动学习研究
通过对多种数据源进行实验,本文显示了四种常见主动学习策略在自然语言推理任务上往往比随机选择无效,因为不确定性策略会获取到集体离群值,即难以学习的实例,这些实例会阻碍学习和泛化。然而,当弃置集体离群值后,策略的有效性得以恢复并且明显优于随机选 - 利用知识库中的先验知识进行结构化数据源的自动语义建模
本文提出了一种新方法,将知识图谱作为先验知识,通过机器学习、图匹配和修改频繁子图挖掘来语义注释结构化数据源。我们的评估显示,在只知道少量语义模型的棘手情况下,我们的方法优于两种最先进的解决方案。