1月22日,百度给用户带来了文心5.0正式版,它用原生全模态统一建模技术,让用户能输入文本、图像、音频、视频,还能得到同样的输出。这就推动中国AI领域进入三足鼎立的格局,创新步伐也加快了。文心5.0和大多数用“后期融合”的方法不同,它把文本、图像、视频、音频等多源数据放进同一个模型里一起训练,让多模态特征在统一架构下融合起来。之前公布的LMArena全球大模型竞技场榜单里,文心5.0多次在文本榜和视觉理解榜上占据国内第一的位置。1月26日,阿里发布了千问旗舰推理模型Qwen3-Max-Thinking,采用了全新的测试时扩展机制。这个机制能把以前推理的结果提炼出来,进行多轮自我迭代,让推理计算更高效、结果更智能。阿里还凭借自身流量优势推动千问大模型接入淘宝、支付宝、飞猪等平台。1月29日,百度把文心衍生模型Paddle OCR-VL-1.5发布并开源了。它还首创了OCR的“异形框定位”技术,能精准识别不规则文档。百度作为具备全栈AI能力的企业,在软硬协同和场景落地方面有着持久投入。百度孵化出来的昆仑芯验证了场景定义芯片的可行性,最近启动了独立上市进程。目前百度已经点亮了国内首个全自研三万卡昆仑芯集群。基于文心基础大模型,百度构建了矩阵模型和专精模型。矩阵模型能快速应用到产品级和通用场景;专精模型面向行业和垂直领域。比如文心数字人大模型在直播电商等领域有了规模应用。2025年“双11”期间,数字人直播商品交易总额同比增长了91%,开播直播间数增长了119%,有超过10万商家使用这个技术。 DeepSeek作为一家开源优势明显的公司,专注于底层能力建设。他们最新发布的DeepSeek-OCR 2用了DeepEncoder V2方法,让模型根据图像含义动态调整画面结构。目前他们的技术已经融入很多垂直场景。 DeepSeek-OCR 2还开源了“模型权重+训练框架+部署工具”全栈方案,把性价比发挥到极致。 DeepSeek还支持“模型权重+训练框架+部署工具”全栈方案。 不管是百度、阿里还是DeepSeek,在AI领域竞争中都展现出强劲韧性。 因为大模型决定了AI应用能力上限,所以各家公司都在密集发布新技术和新产品来抢占制高点。 新春临近时AI产业竞争也日渐升温。 百度相关负责人介绍说与业界大多数采用“后期融合”不同。 阿里的Qwen3-Max-Thinking创新推理技术实现性能跃升。 百度和阿里背靠强大自有业务生态全面发力。 阿里以应用生态为抓手推动千问大模型打通多个领域。 百度孵化出来的昆仑芯走过了从专用到通用的路径。 这个机制可对之前推理的结果进行提炼式提炼并据此进行多轮自我迭代。