- 开源生成式人工智能的近中期风险与机遇
近年来,生成型人工智能的应用预计将在多个领域引起革命性的改变,领域范围涵盖科学、医学和教育等。这种巨大变革的潜力引发了有关潜在风险的激烈辩论,并引起了一些主导 AI 开发的科技巨头呼吁加强监管的声音。然而,这种监管可能会对开源的生成型 AI - 软件开发中的动机大规模调查及其有效性分析
通过调查问卷和预测分析,本研究确定了 11 个激励因素,并分析了它们对开发者动机的相对影响以及答案的有效性问题。尽管存在一些有效性问题,但对多样化激励因素对高动机概率的影响进行的预测分析提供了有价值的见解。
- 潘多拉的白箱:开放式 LLM 中训练数据泄露的增加
本研究对开源大型语言模型的隐私攻击进行了系统研究,提出了威胁预训练和微调模型的成员推断攻击方法,并展示了近乎完美的攻击效果,强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。
- 机器学习中的计算分化:对学术贡献与审查的威胁?
工业与学术人工智能实验室在使用计算资源方面存在显著差异,我们通过数据调查探讨了计算资源差距在塑造机器学习研究中的作用。我们发现,计算资源差距与在计算密集型研究主题,尤其是基础模型方面仅限于学术研究团队的减少相关。我们认为,学术界在推动相关技 - 克莱尔法语对话数据集
Claire French Dialogue Dataset (CFDD) is a multilingual, open source corpus of roughly 160 million words from transcript - 使用超参数调整的模型叠加技术进行编码问题标注
本文提出使用超参数调节提高准确率的增强模型堆叠来帮助编码问题的练习,取得了 77.8%的准确率和 0.815 的 PR-AUC,并公开了数据集和模型。
- DeepFilterNet:感知驱动的实时语音增强
本文介绍了使用 DeepFilterNet 进行实时语音增强的演示。通过利用言语生产和心理声学感知的领域知识,该模型能够匹配最先进的语音增强基准,并在单线程笔记本 CPU 上实现了实时化因子 0.19。该框架及预训练权重已在开源协议下发布。
- ganX -- 生成人工新的 XRF 的 python 库,将 RGB 图像转换成 MA-XRF 原始数据
本文介绍了 ganX 的第一个版本,这是一个用于生成 X-ray 荧光宏观地图的 Python 库,利用蒙特卡罗方法从一个彩色 RGB 图像中提取 MA-XRF 信号,并以其与颜料 XRF 信号的接近程度为权重计算 MA-XRF 像素信号的 - 基于规则的异常检测
采用可解释人工智能 (XAI) 方法,使用不同的度量标准来识别样本的相似程度,验证模型非参数和分布假设的假设,检测机器学习中最关键的问题之一 —— 超出分布检测,并在预测维护、车队编队和网络安全等复杂情境中进行了验证,得出了精确的检测和对训 - 无法访问的神经语言模型可能会再次激活语言天赋主义
该研究论文阐述了当前的大语言模型非常强大,但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视,并主张研究者们应该尽可能开源其大型语言模型的代码,以便让经验主义和混合方法保持可获得性。
- Mephisto:可移植、可重现、可迭代的众包框架
Mephisto 框架,使众包研究更具再现性,透明性和协作性,覆盖了广泛的任务设计和数据采集工作流程,并提供简单的用户体验,使最佳实践成为易于默认选项。
- EMNLP从未标记文本到分类器:标签侦探在几小时内
介绍了 Label Sleuth—— 一种免费、开源的文本分类器,支持无代码系统,可帮助非专业人士进行自定义文本分类,满足了许多现实场景的需求。
- ICMLDPART:差分隐私自回归表格数据生成的通用框架
提出了一个 Python 库 dpart,使用差分隐私的自动生成合成数据的通用、灵活和可扩展的框架,其中核心是自回归建模。
- ReservoirComputing.jl: 一种高效模块化的库,用于 Reservoir Computing 模型
ReservoirComputing.jl 是一个开源的 Julia 库,它可以通过内部和外部工具扩展文献中提供的许多算法。该实现高度模块化,速度快,附带详细的文档,包括来自文学研究的重现实验。
- ACLCebuano 的基础易读性模型
本论文针对菲律宾第二大母语 —— 宿务语,开发了首个基线可读性模型;本文提取了传统或基于表面的特征、基于 Cebuano 拼字书写的音节模式以及多语言 BERT 模型的神经嵌入。结果显示,使用前两个手工语言特征的随机森林模型训练表现最佳,并 - 块循环变压器
本文提出 Block-Recurrent Transformer 模型,运用 transformer layer 实现序列的循环,以及利用 LSTM-style gates 实现参数可扩展性,改进了常规 transformer layer - TorchXRayVision:胸部 X 射线数据集和模型库
TorchXRayVision 是一款用于处理胸部 X 射线数据集和深度学习模型的开源软件库,提供了公共界面和预处理流程,支持多种公开的胸部 X 射线数据集,并且通过库中预训练的不同架构、不同数据集组合的分类和表示学习模型作为基线或特征提取 - 可扩展的随时学习线性时态逻辑片段算法
本论文提出了一种新的算法来解决线性时间逻辑(LTL)公式学习问题,可以构建比之前更大的公式,并且可实现任意时刻输出结果,性能较好。通过开源实现和公开基准测试来评估算法性能。
- EMNLPCoRefi: 用于共指标注的众包工具套件
介绍一项面向众包的基于网络的指代标注工具 CoRefi,除了核心指代标注工具外还提供任务指导和新颖的审核算法,且可嵌入任何网站,具有开源特性。
- 可开放、可编程和虚拟化的 5G 网络:现状和未来
本文提供最近 5G 蜂窝网络的开源软件和框架的全面指南,重点介绍它们如何适应 5G 生态系统,并揭示了调查解决方案之间的交互作用。