data collection | BriefGPT - AI 论文速递

关键词data collection

搜索结果 - 193

AAAI基于强化学习的药物调整系统以最小化言语不流利
我们提出了一种基于强化学习的系统，该系统可以自动为假设的病人开处方药物，帮助病人处理与心理健康相关的语言不流畅问题，并根据病人的数据调整药物和剂量。通过一个大型数据集上建立的模块检测和评估语言不流畅，以及自动找到良好药物组合的强化学习算法，
PDF7 months ago
多维参数空间中的最优数据生成，使用贝叶斯优化
利用高斯过程回归和贝叶斯优化方法，我们提出了一种在复杂多维参数空间中构建高效数据库用于训练机器学习模型的新方法，该方法可以在资源有限的情况下提高模型精度并减少数据收集的工作量。
PDF7 months ago
AutArch: 考古目录中物体检测和自动记录的 AI 辅助工作流
通过人工智能的对象检测神经网络技术，在考古学目录中快速、自动和标准化地收集数据，同时记录几何整体轮廓。
PDF7 months ago
视觉语言指导调整：综述与分析
通过对多模式大语言模型的最新图像语言指令调整设置和数据集的系统回顾，我们总结出高质量图像语言调整数据的特点，构建了完整的数据收集、指令生成和质量控制模块的构建流水线，并在所构建的指令数据上对三种广泛使用的多模式大语言模型进行了图像语言指令调
PDF8 months ago
无人机 IoT 网络中的可靠高效数据采集
通过集成无人机到物联网网络中，我们探讨了无人机辅助物联网网络的通信和网络方面，涵盖了数据收集方法、性能指标、数据准确性和一致性、网络连接性以及数据安全与隐私等方面，同时讨论了无人机轨迹和路径规划、避碰、传感器网络聚类、数据聚合、无人机群集形
PDF8 months ago
使用 Transformer 的 UAV 辅助物联网网络中的 AoI 最小化数据采集的 UAV 轨迹规划
通过考虑信息时代，本文研究了一种用于辅助集群式物联网网络的无人机（UAV）的轨迹规划问题，构建了一个优化问题，通过无人机从地面物联网网络中收集的数据的总信息时代的最小化来解决问题。利用状态良好的转换器和加权 A * 算法，设计了一种机器学习
PDF8 months ago
合成语音儿童：为何需要以及如何制造
现代人机交互（HCI）研究主要依赖于神经网络模型，而这些模型对于系统用户的机器视觉和语音理解需求。针对面向脆弱人群（如儿童）的接口开发需要大量标注的训练数据集，而 GDPR 对于数据的收集、管理和处理引入了显著的复杂性。为了满足 Edge
PDF8 months ago
EMNLP计算立场检测的多标签和多目标机器注释采样
研究了利用大型语言模型进行自动标注来进行计算立场检测，引入了多标签和多目标采样策略以优化标注质量，实验证明该方法能明显提高性能和学习效果。
PDF8 months ago
COOL：一种约束面向对象逻辑编程语言及其神经符号编译系统
该论文研究了神经网络与逻辑编程的整合，解决了将神经网络的泛化和学习能力与符号逻辑的精确性相结合的难题。为了克服这些问题，引入了一种名为 COOL（Constraint Object-Oriented Logic）编程语言的创新方法，将逻辑推
PDF8 months ago
将工人视角融入 MTurk NLP 标注实践
通过批判性文献综述和 MTurk 工作者的调查，我们发现当前在亚马逊众包平台中进行自然语言处理数据收集的方法在考虑工作者的角度上存在问题，因此我们提出了关于公平支付、工作者隐私、数据质量和工作者激励等方面的最佳实践，以更好地尊重工作者权益并
PDF8 months ago
EMNLP语义相似性分类任务中模型与评估数据集策划的界限定位
该研究展示了预训练模型和开放评估数据集的局限性对于评估二元语义相似性分类任务的性能的影响，强调了数据的收集方式的重要性，同时强调了不同数据集、嵌入技术和距离度量之间的性能差异。
PDF8 months ago
SPRING-INX: 由印度马德拉斯理工学院 SPRING Lab 创建的多语言印度语音语料库
印度拥有多种语言，其中有 22 种语言被印度宪法正式认可。为印度人口构建基于语音的应用程序是一个困难的问题，因为数据有限且需要适应不同的语言和口音。为了鼓励语言技术社区在印度语言中构建基于语音的应用程序，我们向开源社区提供了 SPRING-
PDF8 months ago
FreeMask: 密集标注的合成图像增强分割模型
使用合成图像来缓解数据收集和标注流程的负担，该方法通过基于真实数据集提供的语义掩码合成丰富的训练图像，通过与合成图像的训练，可以达到与真实图像相当的性能。
PDF8 months ago
EXMODD: 一个解释性多模态开放领域对话数据集
通过 Multimodal Data Construction Framework (MDCF) 自动生成 Explanatory Multimodal Open-Domain dialogue dataset (EXMODD)，同时提高数
PDF9 months ago
探索数据选择对后门攻击中的毒性效果的影响
本研究重点改进了从样本选择角度提高后门攻击的注入效率，并提出了一种名为改进过滤和更新策略（FUS++）的选择策略，实验证明该策略的攻击性能显著高于随机选择的攻击性能。
PDF9 months ago
基于完全分布式行为指纹技术和安全委托的新型物联网信任模型
设计了一种利用设备行为指纹、分布式共识机制和区块链技术的新型分布式信任模型，以在与网络中的对象进行交互之前评估其可信度，并描述了与该模型相关的安全模型及对其准确性和性能进行的测试。
PDF9 months ago
在线声音事件检测的主动学习
在线主动学习（OAL）应用于声音事件检测（SED）时，本研究提出了能够解决 OAL 中存在的挑战的新型损失函数，实验结果表明 OAL 可将训练 SED 分类器所需的时间和精力减少 5 倍，并成功解决现有 OAL 方法存在的问题。
PDF9 months ago
使用深度学习技术生成的乌尔都诗歌
使用不同的深度学习技术和算法生成乌尔都诗歌，通过 Rekhta 网站收集了 1341 个文本文件，采用 LSTM 和 GRU 等深度学习技术，并运用自然语言处理和机器学习分析和生成人们能够理解和使用的乌尔都语诗歌。
PDF9 months ago
走向以数据为中心的图机器学习：综述与展望
数据中心的人工智能 (Data-centric AI) 是近年来备受关注的研究领域，本文通过深入综述，展望了与图数据相关的数据中心的人工智能的当前努力，并介绍了系统性框架 Data-centric Graph Machine Learnin
PDF9 months ago
PolicyGPT: 使用大型语言模型自动分析隐私政策
通过利用大型语言模型（LLM）开展文本分析，本研究构建了 PolicyGPT 隐私政策文本分析框架，并在两个数据集上进行了测试，结果表明在零样本学习条件下，PolicyGPT 取得了强大的性能，并优于传统机器学习和神经网络模型。
PDF9 months ago