BriefGPT.xyz
Ask
alpha
关键词
online interactions
搜索结果 - 5
在线对话中的第三方干预
通过分析法语维基百科的所有讨论主题,研究全球视角下维基百科讨论页参与者的在线交互行为,并重点调查两位维基百科编辑进行互动时第三位参与者的介入作用,包括这些交互的顺序结构和第三者信息的词汇特点,并提出第三位参与者信息角色的初步分类及其与前述信
→
PDF
13 days ago
在线随机排队网络优化的干预辅助策略梯度方法:技术报告
在线深度强化学习控制(ODRLC)是一种可替代传统方法的方法,它通过智能代理与实际环境直接交互并从这些在线交互中学习最优控制策略。我们提出了一种干预辅助框架,结合了神经网络的学习能力和传统控制策略的稳定性,以解决随机队列网络中无界状态空间的
→
PDF
3 months ago
一种简单的统一的基于不确定性引导的离线到在线强化学习框架
基于离线数据的强化学习方法,通常在实际应用中性能较低,本篇研究提出了一种基于不确定性的 Simple Unified uNcertainty-Guided (SUNG) 框架,通过量化不确定性,设计了一种乐观的探索策略,以及一种自适应的开发
→
PDF
a year ago
无关奖励微调:混合强化学习具有可证明统计优势
本文研究了在混合设置中对表格强化学习算法的探讨,通过利用已有的离线数据集以及未知环境中的在线交互,提出了一种高效的三阶段算法,不需要在数据收集期间提供任何奖励信息并且减少了样本的复杂度。
PDF
a year ago
ACL
嘲讽在塑造不同意空间中的作用:是嘲笑你还是陪你笑?
研究表明,利用深度学习体系结构的联合建模来探测在线交互中引用讽刺的含义,改善了分类配置(同意 / 不同意 / 无)的论证关系任务。
PDF
3 years ago
Prev
Next