- 基于正则化谱聚类的潜在类别分析
本文提出了两种基于新定义的正则化拉普拉斯矩阵的算法,用于估计分类数据的潜在类模型。我们在考虑稀疏性参数的基础上,通过理论收敛速度证明了我们的算法在温和条件下能稳定产生一致的潜在类分析结果,并提出了根据这一度量指标设计的若干程序来推断实际分类 - 分层随机平滑
通过在复杂数据中引入分层随机平滑的方式,本研究相比现有方法更有针对性地增加噪音,以提供更强的稳健性保证和高准确度,在图像和节点分类中实验证明了其重要性。
- 可学习查询的图像美学评估
通过可学习的查询(IAA-LQ)方法,从预训练的图像特征中提取美学特征,对图像进行美学评估,在真实世界数据上表现优于最先进的方法 2.2%的 SRCC 和 2.1%的 PLCC。
- MM关于物品推荐平均嵌入一致性的研究
研究了在推荐系统中普遍使用的一种做法,即对物品嵌入进行平均以表示用户或更高级别的概念,提出了一种期望精确度评分来衡量平均嵌入与其构建所使用的物品的一致性,并通过理论模型和真实世界的音乐流媒体数据分析了该评分的数学表达式以及实证行为,结果强调 - 反馈即所需:基于近似物理模型的真实世界强化学习
本文提出了一种基于策略梯度的策略优化框架,可以通过可能高度简化的一阶模型对实际数据进行监督学习,从而设计出精确的控制策略。
- ICML合成孤独:探索用于语法纠错的合成数据的负面影响
本文研究数据质量控制(噪声注入和平衡数据)对基于真实数据和合成数据训练的语法纠错模型的影响,并比较了两种方法的效果,结果表明,与真实数据情况相同,数据质量控制方法对真实数据训练的模型有积极影响,而对合成数据训练的模型影响为负。
- 临床 GPT:基于多样医疗数据微调的大型语言模型和全面评估
本研究介绍了一种专门为临床场景设计和优化的语言模型 ——ClinicalGPT,通过整合大量临床实际数据、领域特定知识和多轮次对话信息,使其更好地处理多种临床任务,并通过医学知识问答、医学考试、患者咨询和医疗记录的诊断分析等全面评估框架证明 - 公平列子集选择
研究公平的列子集选择问题,尤其是在考虑多个数据群体的情况下,采用一种基于确定性杠杆得分采样的方法来提高选择近似解的效果。
- TransWorldNG 基于基础模型的交通仿真
TransWordNG 是第一款能够从真实交通数据中自动学习交通模式、高效生成准确、逼真交通环境的交通模拟器,它使用数据驱动的算法和图计算技术来应对交通环境的高维度和异质性。
- HuatuoGPT,驯化语言模型成为医生
HuatuoGPT 是一款用于医学咨询的大型语言模型,通过结合 ChatGPT 的蒸馏数据和医生的实际数据进行监督精调,并使用增强学习模型以更好地利用两种数据的优势,表现出出色的实验效果。
- 通过后处理技术弥合差距:提升合成数据的效用
该论文提出了使用生成对抗网络生成综合数据集的新方法,并针对数据集的质量、多样性等问题提出了三种后处理技术,并引入了 GAP Filler 方法进行协调和优化,有效地提高了数据集在真实环境下的分类精度。
- 基于注意力机制的时空图神经 ODE 用于交通预测
本文提出一种基于 GNN 和 ODE 的交通预测模型(ASTGODE),在真实数据上表现良好,具有可解释性,并实现了最高的预测准确度。
- 学习内插以获得更好的流量分位数近似和最坏情况的保证
应用插值技术解决流数据的分位数草图问题,以在保持最坏情况下相似保证的同时,尝试获得比 KLL 在实际数据集上更好的近似。
- AAAI一种基于向量量化的方法用于实际自然语言转音频合成
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标 - UPop: 压缩视觉语言 Transformer 的统一和渐进式修剪
本文提出一种称为 UPop 的通用视觉 - 语言 Transformer 压缩框架,可以在多个生成性和判别性视觉 - 语言任务中自动分配修剪比例,并获得更高的压缩比。
- ICLRDIFFormer: 由能量受限传播引发的可扩展(图)变压器
本文介绍了一种能量受限扩散模型,用于跨数据集批次地学习实例表示,通过相互作用逐渐并入其他实例的信息,以找到几何结构。研究结果表明,该模型可作为一种通用的编码器,在节点分类、图像 / 文本分类、时空动态预测等各种任务中表现出优越性能。
- 完全动态的决策树
该研究开发了一种全新的动态算法,用于在标记示例任意插入和删除的情况下维护决策树,该算法保证每个决策树节点在任何时刻,使用的分裂具有接近最佳的 Gini 增益,在现实数据中的实验表明了该算法的有效性。
- 使用纯合成训练数据从现实世界媒体源中识别和提取足球特征
通过使用生成的有标签和结构化的图像,作者在本文中展示了一种能够克服真实世界数据限制的方法,它能够模拟各种视图和条件,加快训练并准备从真实的足球比赛源中提取特征(如空间位置、场地标记、球员位置、球位置和相机视野)以进行分析的方法。
- 应对挑战环境中机器人探索的在线自适应无导数评估
该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法,该方法能够更好地预测未来状态的价值以更好地指导机器人探索,在挑战性的地下和城市环境中首次应用于真实世界数据集中。
- 大规模结构化现实世界数据的研究:利用患者级监督的深度学习从临床文本中提取关键肿瘤信息
本文介绍了使用自然语言处理技术和基于深度学习的方法处理医学记录中的实际数据,通过利用医学注册处重点患者信息的导向监督,并结合领域特定的预训练、递归神经网络和分层注意的方法,实现了在医疗系统中具有可伸缩性的实证研究。