woods把209gb的ai大模型给跑起来了

最近，一个叫Dan Woods的开发者在一台装了M3 Max芯片还有48GB内存的MacBook Pro上，硬是把一个209GB的AI大模型给跑起来了。这就有点厉害了，因为这么大的模型按以前的说法，起码得去数据中心用那种服务器级的设备才行。但这次他做到了，而且速度还挺快，每秒能处理超过5.5个Token，这给AI在手机上用了新路子。那个模型原来占用了209GB的硬盘空间，压缩后也还有120GB呢。以前想跑这种几百亿参数的模型，得把所有数据全塞进内存里，一般的笔记本电脑根本受不了。 Woods为了突破这个物理限制，想了个巧妙的法子。他参考了苹果在2023年发布的一篇论文，用了一种叫“闪存-内存协同计算”的办法。他把模型参数存到高速NVMe固态硬盘上，通过动态调度按需加载数据。苹果芯片那个统一内存的设计帮了大忙，CPU、GPU和内存深度整合在一起，数据传输速度比以前那种分开的架构快多了。他还特别优化了Qwen模型的混合专家架构，把每次激活的专家模块数量从10个减到了4个，这样内存需求就降低了60%以上。还有一个叫Simon Willison的开发者也分析了这套做法，他说这种策略能直接从闪存读取活跃权重，性能和资源消耗都能很好地平衡。项目里用到的AI工具也挺关键的。Woods把苹果的技术论文扔进Claude Code这个智能助手里面，让它自动跑了90次实验来迭代优化。最后生成了针对苹果芯片优化的MLX Objective-C和Metal底层代码。这种人和机器一起干活的模式效率很高，他也把所有的技术细节和测试数据都在GitHub上开源了，大家都能看到。这次突破证明了用消费级设备跑超大规模模型是可行的，给AI从云端搬到终端提供了新想法。虽然现在还得靠高速固态硬盘来支撑，但这也给以后的硬件优化指明了方向。等存储介质越来越快，算法也越来越进步了，以后普通笔记本电脑运行千亿参数的模型可能就不再是个梦了。