中国大模型公司阶跃星辰又搞了个大动作

嘿，大家听说没？中国的一家大模型公司，阶跃星辰，今天又搞了个大动作。3月4日，他们不仅开源了Step 3.5 Flash模型，还把Agent基座模型的预训练权重、中训练权重和Steptron训练框架全都放出来了。这一次，真的很彻底。在这种开源变得越来越保守的时候，他们的做法在社区里引起了很大反响。Step 3.5 Flash用的是稀疏MoE架构，每个token只用110亿参数激活，一共算下来有1960亿参数。在推理速度方面，最高能达到每秒350个token。这模型在Agent场景和数学任务上表现得很好，能胜任复杂长链条的任务。开发者们已经开始用它了，在Hugging Face上下载量超过30万次。就在3月2日，一天的调用量超过了40B，在OpenClaw榜单上排第二。要知道，阶跃星辰平时挺低调的，这次他们的CTO朱亦博还亲自出来跟大家聊天呢。有开发者问：你们是不是早就想好89 tokens/参数这个平衡了？朱亦博说他们的确有明确目标：让模型能在128GB内存里运行。他发现230B规模的模型超出了他的MacBook Pro 4位量化范围。他就把团队的规模缩减了一下，好让大家在消费级硬件上运行。很多开发者觉得这个选择太棒了！他们希望步跃星辰能把基础模型和指令/思考模型一起发布出来，方便大家微调。结果这次他们就把预训练权重、中训练权重还有框架全都给放出来了！希望大家都能用上这个强大的基座去做自己的Agent定制！