优秀财经网优秀的人都在用的资讯工具

财经关键词关于我们联系我们

全球指数

首页 > TAG信息列表 > 强化学习

阿里通义实验室推出新算法FIPO

阿里通义实验室智能计算团队推出新算法FIPO，旨在解决纯强化学习中推理长度停滞的问题，并在32B规模下实现对同规模DeepSeek-Zero-MATH的性能反超。...

2026-04-07
MiniMax发布新一代Agent旗舰大模型M2.7

MiniMax新一代Agent旗舰大模型M2.7发布，该模型具备自我进化能力，可参与训练、优化与迭代过程。在强化学习场景中表现出色，能自主调整参数、优化策略并提升效果。未来有望实现全流程自动化，显著压缩研发周期。...

2026-03-18
腾讯云与MiniMax达成合作，推动Agent RL强化学习训练

腾讯云与AI大模型厂商MiniMax达成合作，基于腾讯云Agent Runtime沙箱产品展开全链路技术与业务协同，推动Agent RL强化学习训练。...

2026-03-18
中金展望：2026年大模型在强化学习等方面将取得更多突破

中金展望2026年大模型发展，认为在强化学习、模型记忆、上下文工程等方面将取得更多突破，逐步攻克生产力场景，实现AGI长期目标。...

2026-02-05
腾讯AI人才再添强将：庞天宇入职负责强化学习

1月30日，《每日经济新闻》报道，原新加坡Sea AI Lab高级研究科学家庞天宇即将入职腾讯，负责强化学习前沿算法探索。庞天宇是清华大学计算机系直博生，主要研究方向为机器学习。他将在腾讯混元多模态部Exploration Center开展研究工作。...

2026-01-30
阿里通义千问负责人：多模态模型向智能体转变，迈向物理世界

《科创板日报》记者获悉，阿里通义千问大语言模型负责人林俊旸称已组建机器人与具身智能团队。他指出多模态基础模型正转变为智能体，可利用工具与记忆强化学习推理，应从虚拟走向物理世界。...

2025-10-08
DeepSeek-R1研究论文登《Nature》封面，AI模型训练成本创新低

9月18日，DeepSeek研究论文登上《Nature》封面，其R1模型训练成本仅29.4万美元，远低于行业平均。论文公开了仅靠强化学习激发大模型推理能力的重要成果，DeepSeek-R1成全球最受欢迎开源推理模型。...

2025-09-18
理查德·萨顿：人工智能进入经验时代，潜力远超以往

9月11日，2024年图灵奖得主理查德·萨顿在外滩大会上表示，人类数据红利逼近极限，AI正进入以持续学习为核心的“经验时代”。他强调，经验是一切智能的核心，强化学习带领我们进入新阶段，但持续学习和元学习技术尚不成熟。同时，他认为AI与人类的协作将实现双赢，推动宇宙进入“设计时代”。...

2025-09-11
星动L7人形机器人跳高夺冠，展现技术实力

8月16日，2025首届世界人形机器人运动会中，星动纪元全尺寸双足人形机器人星动L7在跳高项目中夺冠。其凭借强大硬件与自研端到端强化学习技术，展现了人形机器人在复杂动态控制上的新突破。...

2025-08-16
马斯克发布特斯拉擎天柱最新视频，强化学习助力自动化进程

马斯克在社交媒体上发布了特斯拉人形机器人擎天柱的最新运动视频，展示了其类人行走能力。擎天柱采用强化学习模拟训练方案，计划以每台约3万美元的价格部署在工厂中，2026年目标生产5万台，并计划登陆火星。...

2025-04-03

37 1 2 3 下一页尾页

一周热门文章

最新文章

微信扫一扫