快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

时间：2025-04-25 11:15:03 栏目：新闻资讯浏览：48

热点栏目

　　（01024）早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

（图侵删）

　　4月23日，快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

　　快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

　　通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

特朗普政府打击“生育旅游” 警告孕妇签证可能遭拒

香飘飘的“第二增长曲线”即饮茶有点乏了

网贷放款后自动扣除高额会员费，多家网贷平台被指变相收取“砍头息”

《7777788888：揭秘精准玄机背后的神奇力量》

闫瑞祥:美指上破日线阻力在即欧美关注日线支撑破位信号

兵韬志略｜美菲“肩并肩”军演超越传统范畴，凸显防务合作重大转型

系船体故障所致，韩国法庭认定“世越”号沉船原因

特朗普关税冲击美国货运量，评级机构下调美国港口展望至“负面”

三丰公司中国区董事长：正将测量技术从实验室延伸到生产现场，帮助企业缩短生产周期

国家药监局：暂停进口印度一原料药

这场发布会，讲清怎么做好自己的事

2万美元的电动皮卡！贝索斯押注的初创车企连音响都给砍了