领军企业密集推出新技术 AI产业创新步伐加快

新春临近，AI产业竞争也日渐升温。

1月22日，百度正式上线采用原生全模态统一建模技术的文心5.0正式版，支持文本、图像、音频、视频等多种信息的输入与输出；1月26日，阿里也正式发布千问旗舰推理模型Qwen3-Max-Thinking，创新推理技术，实现性能跃升；随后，DeepSeek推出全新DeepSeek-OCR 2模型并开源。短时间内，中国AI进入三足鼎立格局，创新步伐明显加快。

基础大模型的演进，决定了AI应用能力的上限。今年以来，百度、阿里、DeepSeek围绕基础大模型密集发布新技术、新产品，加速抢占AI创新制高点。

不久前上线的文心大模型5.0正式版以原生全模态架构引领技术革新，塑造竞争优势。百度相关负责人介绍，与业界多数采用“后期融合”的多模态方案不同，文心5.0采用统一的自回归架构进行原生全模态建模，将文本、图像、视频、音频等多源数据在同一模型框架中进行联合训练，使得多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成。此前公布的LMArena全球大模型竞技场榜单中，文心5.0多次位居文本榜和视觉理解榜国内第一，跻身国际第一梯队。

文心大模型ERNIE-5.0-0110登上LMArena文本榜国内第一

阿里则在推理模型Qwen3-Max-Thinking中采用了一种全新的测试时扩展机制，在提升推理性能的同时还更加经济。这一新机制，可对此前推理的结果进行“经验提取”式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效的推理计算，获得更智能的推理结果。除此以外，阿里以应用生态为抓手，凭借自身流量入口优势，推动千问大模型打通电商、酒旅、支付等自身优势领域，深度接入淘宝、支付宝、飞猪等平台，实现技术与场景高效协同。

与百度、阿里背靠强大自有业务生态全面发力不同，DeepSeek立足开源优势，专注于底层能力与开放生态建设，通过“模型权重+训练框架+部署工具”的全栈开源，将性价比优势发挥到极致。

DeepSeek最新发布的DeepSeek-OCR 2采用创新的DeepEncoder V2方法，让模型可根据图像含义动态重排图像各部分，模拟了人类观看场景的逻辑流程，使得其在处理复杂图片时更智能、更有逻辑，展现出独特的技术创新巧思。目前，其开源技术已融入众多垂直场景，推动AI技术向千行百业低成本渗透。

随后的1月29日，百度也趁热发布并开源了文心衍生模型Paddle OCR-VL-1.5，直接对标DeepSeek-OCR-2，不仅在相关权威榜单中位列全球第一，还首创OCR（光学字符识别）模型的“异形框定位”技术，能精准识别拍歪、折角、卷边的不规则文档。

文心衍生模型Paddle OCR-VL-1.5识别效果

作为极少数具备全栈AI能力的企业，百度也在软硬协同、场景落地方面有着更为持久的投入，在此轮“头部玩家”的竞争中展现出强劲韧性。

在底层硬件方面，始于自身业务对算力的极限需求，百度孵化出的AI芯片品牌昆仑芯走过了从专用到通用、从内部支撑到对外服务的完整路径，验证了场景定义芯片的可行性，并于近期启动独立上市进程，加速多领域布局。目前，百度已点亮国内首个全自研三万卡昆仑芯集群，可同时支撑多个千亿参数大模型训练，实现自研算力从“可用”到“规模化可复制”的跨越。

可靠的底层算力，领先的云服务，以及强大的模型能力，催生出更加丰富的产品服务。基于文心基础大模型，百度构建了矩阵模型和专精模型。矩阵模型面向产品级应用和通用场景快速落地；专精模型面向行业应用和垂直场景，例如文心数字人大模型已在直播电商等领域实现规模应用，创造出新的交互体验与内容形态。2025年“双11”期间，数字人直播商品交易总额同比增长91%，开播直播间数增长119%，超10万商家使用。

自2025年春节DeepSeek走红以来，中国AI便一直是国际科技领域的热门话题。转眼新春又至，经过一年多时间的发展，如今，AI技术正在我国正迈入规模化落地新阶段，AI的价值也在驱动产业变革、创造更广泛社会效益中得到进一步验证。虽企业发展路径各有不同，但其背后是一条清晰可见的创新能力升级之路，共同推动中国AI产业从“追赶”迈向“领跑”。

（文章来源：科技日报）

文章来源：科技日报

原标题：领军企业密集推出新技术 AI产业创新步伐加快

领军企业密集推出新技术 AI产业创新步伐加快

分享成功

热门推荐