嘿,大家听说没?中国的一家大模型公司,阶跃星辰,今天又搞了个大动作。3月4日,他们不仅开源了Step 3.5 Flash模型,还把Agent基座模型的预训练权重、中训练权重和Steptron训练框架全都放出来了。这一次,真的很彻底。在这种开源变得越来越保守的时候,他们的做法在社区里引起了很大反响。Step 3.5 Flash用的是稀疏MoE架构,每个token只用110亿参数激活,一共算下来有1960亿参数。在推理速度方面,最高能达到每秒350个token。这模型在Agent场景和数学任务上表现得很好,能胜任复杂长链条的任务。开发者们已经开始用它了,在Hugging Face上下载量超过30万次。就在3月2日,一天的调用量超过了40B,在OpenClaw榜单上排第二。要知道,阶跃星辰平时挺低调的,这次他们的CTO朱亦博还亲自出来跟大家聊天呢。有开发者问:你们是不是早就想好89 tokens/参数这个平衡了?朱亦博说他们的确有明确目标:让模型能在128GB内存里运行。他发现230B规模的模型超出了他的MacBook Pro 4位量化范围。他就把团队的规模缩减了一下,好让大家在消费级硬件上运行。很多开发者觉得这个选择太棒了!他们希望步跃星辰能把基础模型和指令/思考模型一起发布出来,方便大家微调。结果这次他们就把预训练权重、中训练权重还有框架全都给放出来了!希望大家都能用上这个强大的基座去做自己的Agent定制!