新春临近,AI产业竞争也日渐升温。
1月22日,百度正式上线采用原生全模态统一建模技术的文心5.0正式版,支持文本、图像、音频、视频等多种信息的输入与输出;1月26日,阿里也正式发布千问旗舰推理模型Qwen3-Max-Thinking,创新推理技术,实现性能跃升;随后,DeepSeek推出全新DeepSeek-OCR 2模型并开源。短时间内,中国AI进入三足鼎立格局,创新步伐明显加快。
基础大模型的演进,决定了AI应用能力的上限。今年以来,百度、阿里、DeepSeek围绕基础大模型密集发布新技术、新产品,加速抢占AI创新制高点。
不久前上线的文心大模型5.0正式版以原生全模态架构引领技术革新,塑造竞争优势。百度相关负责人介绍,与业界多数采用“后期融合”的多模态方案不同,文心5.0采用统一的自回归架构进行原生全模态建模,将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。此前公布的LMArena全球大模型竞技场榜单中,文心5.0多次位居文本榜和视觉理解榜国内第一,跻身国际第一梯队。

文心大模型ERNIE-5.0-0110登上LMArena文本榜国内第一
阿里则在推理模型Qwen3-Max-Thinking中采用了一种全新的测试时扩展机制,在提升推理性能的同时还更加经济。这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。除此以外,阿里以应用生态为抓手,凭借自身流量入口优势,推动千问大模型打通电商、酒旅、支付等自身优势领域,深度接入淘宝、支付宝、飞猪等平台,实现技术与场景高效协同。
与百度、阿里背靠强大自有业务生态全面发力不同,DeepSeek立足开源优势,专注于底层能力与开放生态建设,通过“模型权重+训练框架+部署工具”的全栈开源,将性价比优势发挥到极致。
DeepSeek最新发布的DeepSeek-OCR 2采用创新的DeepEncoder V2方法,让模型可根据图像含义动态重排图像各部分,模拟了人类观看场景的逻辑流程,使得其在处理复杂图片时更智能、更有逻辑,展现出独特的技术创新巧思。目前,其开源技术已融入众多垂直场景,推动AI技术向千行百业低成本渗透。
随后的1月29日,百度也趁热发布并开源了文心衍生模型Paddle OCR-VL-1.5,直接对标DeepSeek-OCR-2,不仅在相关权威榜单中位列全球第一,还首创OCR(光学字符识别)模型的“异形框定位”技术,能精准识别拍歪、折角、卷边的不规则文档。

文心衍生模型Paddle OCR-VL-1.5识别效果
作为极少数具备全栈AI能力的企业,百度也在软硬协同、场景落地方面有着更为持久的投入,在此轮“头部玩家”的竞争中展现出强劲韧性。
在底层硬件方面,始于自身业务对算力的极限需求,百度孵化出的AI芯片品牌昆仑芯走过了从专用到通用、从内部支撑到对外服务的完整路径,验证了场景定义芯片的可行性,并于近期启动独立上市进程,加速多领域布局。目前,百度已点亮国内首个全自研三万卡昆仑芯集群,可同时支撑多个千亿参数大模型训练,实现自研算力从“可用”到“规模化可复制”的跨越。
可靠的底层算力,领先的云服务,以及强大的模型能力,催生出更加丰富的产品服务。基于文心基础大模型,百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地;专精模型面向行业应用和垂直场景,例如文心数字人大模型已在直播电商等领域实现规模应用,创造出新的交互体验与内容形态。2025年“双11”期间,数字人直播商品交易总额同比增长91%,开播直播间数增长119%,超10万商家使用。
自2025年春节DeepSeek走红以来,中国AI便一直是国际科技领域的热门话题。转眼新春又至,经过一年多时间的发展,如今,AI技术正在我国正迈入规模化落地新阶段,AI的价值也在驱动产业变革、创造更广泛社会效益中得到进一步验证。虽企业发展路径各有不同,但其背后是一条清晰可见的创新能力升级之路,共同推动中国AI产业从“追赶”迈向“领跑”。
(文章来源:科技日报)
