小米正式接下了这一任务,宣布自己是“Hunter Alpha”的主人,同时还给大伙看了三款大模型。负责的罗福莉提到,以后的MiMo-V2系列,条件成熟了就会把代码开源出来。那个引起大家讨论的“DeepSeek V4”,很可能只是它的早期模样。在全球最大的API平台OpenRouter上,这个名叫“Hunter Alpha”的模型前不久还在榜首位。这次小米凌晨发消息,告诉大家这是自家的产品,顺便把MiMo-V2-Pro、Omni和TTS这三款都拿出来了。这三个产品给了大家一周的免费试用机会,大家可以去指定的地方申请体验一下。 罗福莉在发布的长文中讲了研发的故事,她说这是小米第一次专门为智能体时代准备的全栈系列,过程很辛苦也很刺激。从聊天模式转到智能代理模式的速度很快,团队里的人又兴奋又难受。她提到那个1T的大模型其实几个月前就开始训练了,最开始就是想把长上下文处理得更快一些。后来团队用了混合注意力机制来解决问题,既保证了创新又没有盲目扩大规模。这个模型支持1M的上下文窗口,还用了MTP技术做到了超低延迟和低成本。这些设计不是拍脑袋想出来的,而是团队提前规划好的结构优势。 研发过程中出现了一个复杂的智能体框架,罗福莉说这是个精心安排的语境,她头一次看到就很惊讶。为了让大家接受这种思路,她下了死命令:要求每个人每天必须要对话100次以上。结果这招特别管用,把大家的想象力都调动起来了,工作效率也跟着变高了。她分享经验时提到好几个关键点:基础网络建设需要有长期战略的决心,通常要一年才能看到效果;训练后的敏捷性也很重要,要靠直觉评估、缩短周期来实现转变;还有好奇心、技术直觉、执行力和全身心投入也必不可少。 关于开源的事情,罗福莉表示MiMo-V2系列在足够稳定后就会开源。这说明小米很重视技术共享和社区建设,也给开发者们留下了不少期待。