微软在IT界抛出了重磅炸弹——把Phi-4-Reasoning-Vision-15B这个开源模型给推了出来。这个AI太牛了,是个专门做视觉推理的家伙,属于微软Phi-4系列里头的一员大将。它把视觉感知和逻辑思考的活儿给一并拿下了,虽说它是个小语言模型(SLM),但做得确实漂亮。以前的视觉模型就像个看客,只会傻乎乎地识别画面里有啥东西。这回可不一样,Phi-4-Reasoning-Vision-15B学会了主动思考,能分析图像的结构,把看到的和听到的文字串起来,最后给出能操作的结论。这下可好了,开发者想做图表分析或者GUI自动化的项目就容易多了。这模型最大的本事在于它能变身,根据具体任务切换模式:要是碰到需要动脑子的数学题或者逻辑分析,就开启复杂的推理链;要是只是单纯地做个OCR识别或者找个元素位置,直接给出结果就行,不用浪费时间。 这个东西在搞智能体方面特别管用。给它发张屏幕截图再配上几句人话指令,它立马就能算出目标UI元素的具体坐标框框。其他那些智能体拿到坐标后就能直接去点击或者滚动页面。现在就连界面交互也变得很精准。大家可以去https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B看看它跟其他模型的对比数据。