- TorchOpera:一个复合人工智能系统用于 LLM 安全
TorchOpera 是一个复合的人工智能系统,用于增强大型语言模型的提示和回答的安全性和质量。该系统利用向量数据库进行上下文相关,使用基于规则的包装器进行灵活修改,并使用专门的机制检测和调整不安全或不正确的内容,同时降低计算成本,以确保 - CityCraft:一个用于 3D 城市生成的真实制作工具
CityCraft 是一种创新框架,结合了三个关键阶段来增强城市场景的多样性和质量,它包括使用扩散变压器模型生成 2D 城市布局,利用大型语言模型根据用户提示和语言指南制定土地利用规划,以及通过资产检索模块和 Blender 进行精确的资产 - JointRF:动态神经辐射场表示与压缩的端到端联合优化
我们提出了一种新的端到端联合优化方案,名为 JointRF,用于动态 NeRF 的表示和压缩,通过使用紧凑的残余特征网格和系数特征网格来处理大运动,同时减少时间冗余,并引入一个时空冗余压缩子网络以进一步减少时空冗余。大量实验证明,Joint - ACLG-DIG: 面向基于梯度的多样化和高质量指导数据选择的机器翻译
我们提出了一种基于梯度的新方法,自动选择高质量和多样化的机器翻译指令微调数据。通过分析个别训练示例在训练过程中对模型的影响,我们选择对模型有益影响的示例作为高质量数据,并使用影响函数和一个小的高质量参考数据集。此外,为了提高训练数据的多样性 - 构建大规模的日语网络语料库用于大型语言模型
通过从 Common Crawl 档案中提取和精炼文本,该研究构建了一个大型的日语网页语料库,用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符(约 1.73 亿页),是目前可用的日语训练语料库中最大的,超过了 CC-100、m - COLING优化韩国语 TTS 停顿生成的句法和声学线索相互作用
通过综合建模句法和声学线索,提出了一种能够生成自然语音的新框架,有效解决高资源语言和韩语中的停顿错误问题。
- 无监督通用依存树聚合的实证分析
依存解析是 NLP 中的重要任务,解析器的质量对许多下游任务至关重要。聚合方法在解决质量差异问题方面发挥着作用,但在依存解析任务中,后处理聚合方法的研究不足。通过广泛的实证研究,我们比较了不同的无监督后处理聚合方法,以找到最合适的依存树结构 - ACLFundus: 简单易用的高质量新闻爬取器
该论文介绍了 Fundus,一种用户友好的新闻爬取工具,用户只需几行代码即可获取数百万篇高质量的新闻文章。与现有的新闻爬取工具不同,我们使用手工制作的定制内容抽取器,专门适应每个支持的在线报纸的格式指南,从而优化我们的爬取质量,以获取完整且 - 衡量协同生成图像的多样性
通过将神经网络编码的熵用于比较图像集合之间的多样性,我们提出了一种无需基准知识且易于计算的方法来评估协同创作系统生成的内容的多样性。通过比较两个预训练网络的选择与我们想要评估的多样性概念的关系,我们还讨论了这些度量在交互系统中的概念生成、模 - 优化 LLM 使用成本的探索
本研究提出了一种通过预测 LLMs 的输出质量并优化选择 LLMs 的模型和算法,以降低使用成本,并在质量和延迟意识的情况下实现成本和质量的折衷。研究表明,我们的方法在降低成本 40%-90% 的同时,提高了质量 4%-7%。
- 点击率诱导优化如何塑造在线平台的内容格局
在线内容平台通常使用基于参与度的优化来进行推荐,该研究分析了内容创作者之间基于参与度指标竞争的博弈游戏,并研究了投资于质量和采用作弊手段的平衡决策,结果发现在平衡状态下创作者创作的内容质量和作弊行为之间存在正相关关系。同时,该研究还扩展了基 - AAAI点云部分编辑:分割、生成、组装和选择
提出了一种基于四阶段过程(分割、生成、组装和选择)的点云部分编辑模型 SGAS,通过特征解缠和约束策略,实现了编辑部分的多样性、忠实度和结果质量的提高。在不同数据集上进行的实验验证了 SGAS 在点云部分编辑上的高效性和有效性,同时还可以用 - 标记我的言辞:分析和评估语言模型水印
在大型语言模型的能力与对其滥用的担忧日益增长的背景下,对机器生成的文本与人类作者的内容进行区分的能力变得重要。本研究侧重于文本水印技术而非图像水印,并提出了一个全面的评估框架,包括不同任务及实际攻击的水印技术基准。我们关注三个主要指标:质量 - 大型语言模型自吃训练循环的问题分析
大型语言模型的自消耗训练循环通过使用自身生成的内容训练新一代语言模型,初始会提高生成内容的质量和多样性,但经过几代之后,多样性不可避免地会逐渐下降。
- 医疗领域联邦学习的最新方法论进展
使用分布式学习方法探索医疗数据的挑战和方法,评估当前方法的系统问题并提出改进建议。
- 大型语言模型生成的儿童故事的可信度
大语言模型(LLMs)在生成文学文本方面显示出巨大的能力。然而,它们在生成儿童故事方面的有效性尚未得到全面的考查。在本研究中,我们使用各种指标评估 LLMs 生成的儿童故事的可靠性,并将我们的结果与旧的和新的儿童故事进行对比,以更好地评估它 - VISION 数据集:基于视觉的工业检测基准测试
通过引入 VISION 数据集,我们希望为实现基于视觉的工业检测的进一步提高带来新的挑战和方法。
- 如何控制文本简化? 对含义保持控制性简化的控制标记的实证研究
本研究通过实证研究不同的控制机制对模型简化输出的适当性和简单性影响的方式,提出了一种简单的方法来预测控制令牌,以提高简化文本的质量。
- FIANCEE: 基于条件提前退出的对抗网络快速推断
本文提出了一种利用早期退出支路来降低计算量的方法,并在两种最先进的生成任务模型上应用,即从语义映射中生成和面部表情的交叉重演,可以输出具有自定义较低质量阈值的图像,尤其适用于实时应用场景。
- CALIME:基于因果关系的本地可解释模型无关解释
本篇论文提出一种新颖的扩展方法,将因果关系显式编码进生成输入实例的数据以解释增加信任度和帮助用户评估解释质量的 XAI 方法,并通过实验表明该方法对于拟合黑匣子和解释稳定性均达到了比初始方法更优越的表现。