Klear-Reasoner
互联网
2025-08-20 15:08:12
Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开,为推理模型的发展提供重要的参考和复现路径。



![eloise软软_风里有了秋天的味道[微风] ](https://imgs.knowsafe.com:8087/img/aideep/2024/1/16/266a9016703b01ff0d0e4a07a76c2ae9.jpg?w=250)



