新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 特朗普政府打击“生育旅游” 警告孕妇签证可能遭拒
  • 香飘飘的“第二增长曲线”即饮茶有点乏了
  • 网贷放款后自动扣除高额会员费,多家网贷平台被指变相收取“砍头息”
  • 《7777788888:揭秘精准玄机背后的神奇力量》
  • 闫瑞祥:美指上破日线阻力在即 欧美关注日线支撑破位信号
  • 兵韬志略|美菲“肩并肩”军演超越传统范畴,凸显防务合作重大转型
  • 系船体故障所致,韩国法庭认定“世越”号沉船原因
  • 特朗普关税冲击美国货运量,评级机构下调美国港口展望至“负面”
  • 三丰公司中国区董事长:正将测量技术从实验室延伸到生产现场,帮助企业缩短生产周期
  • 国家药监局:暂停进口印度一原料药
  • 这场发布会,讲清怎么做好自己的事
  • 2万美元的电动皮卡!贝索斯押注的初创车企连音响都给砍了
  • 华润医药:华润双鹤一季度实现净利润5.23亿元 同比增长4.13%
  • 中方考虑对部分美进口商品免征125%关税?外交部回应
  • OPPO回应FindX8 Ultra手机发热严重:信息不实,已报案
  • 关键词: