Klear-Reasoner

互联网 2025-08-20 15:08:12

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开，为推理模型的发展提供重要的参考和复现路径。

*文章为作者独立观点，不代表爱思词典立场

本文由金善雅发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://baike.0xu.cn/b/hlw/11210.html

Klear-Reasoner Qwen3-8B-Base