【manjeet singh】把mac mini的ai 训练潜力给彻底释放出来的

各位听众大家好,我是Manjeet Singh。今天我要跟大家聊聊我是怎么用Claude把Mac mini的AI训练潜力给彻底释放出来的。其实咱们刚开始玩的时候,根本没想过能这么猛。我和Claude一起摸爬滚打,硬是把苹果系统里最难缠的ANE给搞定了。这一下就把Mac设备上的AI训练成本给拉下来了。 这事儿说起来挺有意思。我一开始就是想试试AI驱动的硬件破解能不能行。结果发现啊,苹果M4芯片上那个NPU单元不光是能推理,通过特殊技术还能支持训练。关键就是把CoreML框架那层墙给推倒了。我们通过逆向工程把中间语言解析了一遍,甚至还把二进制文件拆开看了看。最后找到了AppleNeuralEngine.framework里的那个隐藏接口。这一发现太重要了,以后开发者都不用费劲去绕过官方限制了,直接就能控制ANE干前向和反向传播的活儿。 数据一出吓我一跳。那个Transformer模型在Mac上跑了一下,单层推理只要9.3毫秒,效率高得吓人。大家都在说M4的ANE有38 TOPS算力,我实测了一下发现这完全是误导人的。实际峰值才19 TFLOPS。INT8量化本来想提高速度结果根本不行,因为ANE运行前会自动把权重变成FP16。 我还发现了几个大问题:矩阵运算如果小于256×256就受调度影响太大;4096×4096的大矩阵会被SRAM卡脖子,吞吐量直接掉了30%;要是孤立运算的话,顶多只能用出30%的劲儿。 不过这功耗控制确实是绝了!峰值时候才2.8瓦,比H100省电50倍、比A100省80倍。这全靠电源门控技术厉害,硬件一闲下来就自动断电。我搞了个16到64个运算的链式结构,16个核心一直在玩命干活。结果发现跑32层网络的时候利用率能到94%。 技术细节也挺颠覆人的。我把矩阵乘法改写成1×1卷积后,吞吐量直接翻了三倍。这说明ANE本质上就是个卷积优化引擎。现在只能训1.1亿参数的微型GPT模型,不过用LoRA微调一下就能支持30到70亿参数的大家伙了。不过嘛,因为有些操作得回退到CPU上做,整体效率只有峰值的2%到3%。 这事儿引起了连锁反应。MicroCenter把Mac mini和开发套件绑一块儿卖了,说这是AI训练的完美搭档。我看了下代码库发现用优化后的数据流架构跑Stories110M模型(就是Llama-2架构)在TinyStories上实时训练没问题,功耗还不到1瓦。这就意味着你用个闲置的Mac交电费的钱,就能干完以前4万美元A100集群才搞定的事儿。 最后咱们再对比一下M4的SME矩阵扩展单元。在批量推理这块儿ANE那是绝对的老大;但SME更适合做那种需要快速响应的解码任务。于是我搞了个混合模式:预填充时用ANE处理大批量数据;解码时切换成SME保证速度。实验证明这样能让大模型推理效率提升40%,还能把功耗压到传统GPU的1/20。 好了各位听众朋友们!感谢Claude的帮忙我们才把这事儿做成了。未来的AI世界肯定会因为这种破解行动变得更加有趣。