- 时变极点图
我们介绍了一种支持时间变化标量场的可视化和分析的拓扑结构,即时间变化的极值图(TVEG)。TVEG 是 Morse-Smale 复杂的子结构,捕捉了标量场的 Morse 分解中细胞之间的邻接关系,并通过优化问题构建了 TVEG。我们通过多个 - 高阶图神经网络揭秘
高阶图神经网络(HOGNNs)是一类重要的 GNN 模型,能够利用顶点之间的多系关系来解决过度平滑或过度压缩等问题,显著提高 GNN 预测准确性,改进 GNN 架构,并能帮助选择最适合特定场景的 GNN 模型,提出了具有挑战与机遇的 HOG - TrafficVLM: 可控的交通视频字幕视觉语言模型
TrafficVLM 是一种新颖的多模态密集视频字幕模型,用于车辆自我摄像机视角中对交通视频事件进行不同层次的空间和时间分析,生成精细描述,提出了一种条件组件和多任务微调范式来增强 TrafficVLM 的学习能力,将其应用于 AI Cit - 通过随机控制进行扩散模型的微调:熵正则化与更多
本研究致力于对连续时间漫射模型中的熵正则调优问题进行深入研究,并展示如何将分析扩展到涉及一般 $f$- 散度正则化器的调优问题。
- 大型语言模型的数据集:综述
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的 - 使用多个卷积神经网络进行静态恶意软件检测中的区段分析
现有的恶意软件检测研究主要关注检测速度,但在某些情况下,了解算法的结果或获取更多信息,例如在文件中进行分析的位置,也是很重要的。为了达到这个目标,我们提出了一个新的模型来分析可移植可执行文件。我们的方法是将文件分成不同的部分,然后将每个部分 - 聚类算法快速综述
通过分析现有的聚类算法,我们在五个不同的维度上对主要算法进行分类,以帮助研究人员从不同的角度理解聚类算法,并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向,以及该领域的挑战和未解决的问题。
- NHANES-GCP: 利用谷歌云平台和 BigQuery ML 进行可复现机器学习,基于美国国家健康和营养调查数据
NHANES-GCP 自动化处理 NHANES 数据工程和管理,提供干净的数据表,可用于大规模分析,以增强分析的可重复性,为统计学、机器学习和大型语言模型的微调创建良好的 NHANES 数据资源。
- 有毒语言检测:阿拉伯数据集的系统调查
本文综合调查了关于阿拉伯语在线毒性语言的数据集,收集了 49 个可用的数据集及其相应的论文,并对其进行了全面分析,考虑了内容、注释过程和可重复使用性三个主要维度的 16 个标准。通过这一分析,我们发现了现有的差距,并对今后的研究工作提出了建 - 面向非结构化数据的过程挖掘:挑战与研究方向
运用过程挖掘技术分析无结构数据面临多项挑战,本文讨论这些挑战并提出初步解决方案和未来研究方向,为未来的合作奠定基础。
- Video-Bench:用于评估基于视频的大型语言模型的综合基准和工具包
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
- 界定边界:显微图像中细胞识别的挑战和进展
细分、测量和分析细胞图像的关键步骤在于对象分割。深度学习基于的工具在该领域中逐渐取得了主导地位,以 Cellpose 为代表的专业模型在准确性和用户友好性方面不断提升,多模态细胞分割挑战推动了准确性、效率和可用性方面的创新。文档、共享和评估 - EMNLPChatGPT 能否像律师一样利用 IRAC 法进行法律场景分析的推理?
大语言模型(LLMs)在法律领域近期受到了很多关注,因为它们具备处理各种法律任务的新兴能力。然而,目前还不清楚 LLMs 是否能够像律师一样分析法律案例并进行推理。因此,我们构建了一个新颖的语料库,其中包含与马来西亚合同法和澳大利亚社会法的 - 学习多位专家推迟预测的原则方法
我们提出了一项关于使用多个专家进行学习推迟的代理损失和算法的研究,并证明了这些代理损失从强大的 $H$- 一致性上获益。我们通过几个实际代理损失的例子阐述了分析的应用,并给出了明确的保证。虽然这项工作的主要焦点是理论分析,但我们还报告了在 - 软件生成数据中的偏见和误差缓解:利用生成代码模型的高级搜索和优化框架
提出了一种先进的搜索和优化框架,基于大型语言模型生成高质量代码,用于解决数据分析和生成软件系统中的错误和偏差问题,并使用 Solomonoff 归纳作为理论基础,通过扩展 Kolmogorov 条件复杂性来评估候选程序集。
- 多语言环境下的政治主张识别与分类:初步实验
通过不同的策略进行政治要求分析的跨语言投射是一项重要工作,本文以德国数据集 DebateNet2.0 为基础,涵盖了 2015 年难民危机引发的政策辩论,通过两个任务(要求识别和分类)、三种语言(德语、英语和法语)以及两种方法(机器翻译 — - CA-PCA:适用于曲率的流形维度估计
本研究提出了基于二次嵌入的局部 PCA(主成分分析)方法 CA-PCA,以校准底层流形的曲率,从而改进算法在高维数据分析中的估计效果。
- 计算机围棋的视觉转换器
通过分析预测准确性、胜率、内存、速度、大小以及学习速率等多个方面,本研究通过与常规残差网络进行比较,突出了 Transformer 在围棋游戏中发挥的重要作用。
- ChatGPT 在归因答案时出现幻觉
ChatGPT 的答案在一半情况下是正确或部分正确的,但是其提供的支持性参考仅有 14% 存在,并且对其所提供的参考进行的分析揭示出通用的特征,即使模型提供的参考确实存在,该参考通常也不能支持 ChatGPT 所归属的要求。
- 保持结构的序列 SPD 矩阵变压器
近年来,基于 Transformer 的自动注意机制已成功应用于各种依赖上下文的数据类型的分析,从文本到图像等等,包括非欧几里得几何学的数据。本文介绍了这样一种机制,旨在对对称正定矩阵的序列进行分类,并在整个分析过程中保持其黎曼几何性质。我