崽崽nana

Hojo-ASR-V1

互联网 2026-06-12 12:14:58

Hojo-ASR-V1 是初创团队 Hojo 开源的自动语音识别模型,采用Whisper 特征提取 + Qwen3-Omni 音频编码 + Conformer 适配 + Qwen3-4B 语言模型解码的架构。模型在 LibriSpeech Clean 数据集上词错误率仅 1.74%,GigaSpeech 7.6%、VoxPopuli 7.02%,性能接近顶尖大厂水平。模型支持本地部署,面向 Agent 工作流与语音输入场景。