woods把209gb的ai大模型给跑起来了

最近,一个叫Dan Woods的开发者在一台装了M3 Max芯片还有48GB内存的MacBook Pro上,硬是把一个209GB的AI大模型给跑起来了。这就有点厉害了,因为这么大的模型按以前的说法,起码得去数据中心用那种服务器级的设备才行。但这次他做到了,而且速度还挺快,每秒能处理超过5.5个Token,这给AI在手机上用了新路子。那个模型原来占用了209GB的硬盘空间,压缩后也还有120GB呢。以前想跑这种几百亿参数的模型,得把所有数据全塞进内存里,一般的笔记本电脑根本受不了。 Woods为了突破这个物理限制,想了个巧妙的法子。他参考了苹果在2023年发布的一篇论文,用了一种叫“闪存-内存协同计算”的办法。他把模型参数存到高速NVMe固态硬盘上,通过动态调度按需加载数据。苹果芯片那个统一内存的设计帮了大忙,CPU、GPU和内存深度整合在一起,数据传输速度比以前那种分开的架构快多了。他还特别优化了Qwen模型的混合专家架构,把每次激活的专家模块数量从10个减到了4个,这样内存需求就降低了60%以上。 还有一个叫Simon Willison的开发者也分析了这套做法,他说这种策略能直接从闪存读取活跃权重,性能和资源消耗都能很好地平衡。项目里用到的AI工具也挺关键的。Woods把苹果的技术论文扔进Claude Code这个智能助手里面,让它自动跑了90次实验来迭代优化。最后生成了针对苹果芯片优化的MLX Objective-C和Metal底层代码。这种人和机器一起干活的模式效率很高,他也把所有的技术细节和测试数据都在GitHub上开源了,大家都能看到。 这次突破证明了用消费级设备跑超大规模模型是可行的,给AI从云端搬到终端提供了新想法。虽然现在还得靠高速固态硬盘来支撑,但这也给以后的硬件优化指明了方向。等存储介质越来越快,算法也越来越进步了,以后普通笔记本电脑运行千亿参数的模型可能就不再是个梦了。