新华财经北京5月21日电(记者闫鹏)20日,中国信通院发布大模型推理能力评估结果,百度文心X1 Turbo在24项能力评估中,综合评级获当前最高级“4+级”。
从评估结果看,百度文心X1 Turbo在24项能力评估中,16项达5分、7项达4分、1项达3分,综合评级获当前最高级“4+级”。文心X1 Turbo逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。
“评估结果表明,文心X1 Turbo擅长结构化的逻辑思考,并具备平衡模型能力与效率的优化技术,其有效的数据机制保障了模型的可信及可用程度,其推理服务能广泛支持各类应用。”中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,文心X1 Turbo强化推理泛化能力,拓宽工具链应用生态,加强安全机制建设,构筑可信应用保障壁垒。
百度集团副总裁吴甜介绍,文心大模型4.5是多模态基础大模型,文心4.5 Turbo源自文心4.5,效果更好、成本更低;基于文心4.5 Turbo,文心X1升级到X1 Turbo,性能提升的同时,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强。
值得一提的是,文心4.5和4.5 Turbo实现了文本、图像和视频的混合训练。针对不同模态数据在结构、规模、知识密度上的差异,通过多模态异构专家建模、自适应分辨率视觉编码、时空重排列的三维旋转位置编码、自适应模态感知损失计算等技术,大幅提升跨模态学习效率和多模态融合效果,学习效率提高近2倍,多模态理解效果提升超过30%。
吴甜表示,后训练方面,百度研制了自反馈增强的技术框架,实现“训练-生成-反馈-增强”的模型迭代闭环,让大模型拥有自我迭代的“最强大脑”;在训练阶段,通过融合偏好学习的强化学习技术,实现多元统一奖励机制,提升对结果质量判别的准确率;在深度思考方面,突破仅基于思维链优化的范式,在思考路径中结合工具调用,构建融合思考和行动的复合思维链,模型解决问题能力得到显著提升;在数据方面,打造“数据挖掘与合成-数据分析与评估-模型能力反馈”的数据建设闭环,为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据。
“大模型的能力进一步拓展、效率进一步提升之后,可以探索更前瞻、更有想象力的创新应用。”吴甜指出,以数字人为例,超拟真数字人需要综合运用多模态AI技术,百度研制了“剧本”驱动多模协同的超拟真数字人技术,实现了语言、声音、形象的协调一致。目前这套技术已经支持超过10万数字人主播,直播转化率达31%,降低80%直播开播成本。
文心大模型的能力拓展和效率提升,得益于飞桨文心的联合优化。公开数据显示,飞桨文心开发者数量已超过2185万,服务超过67万家企业,创建的模型达到110万。基于飞桨深度学习平台和文心大模型,百度在上海、广州、南京等多地落地产业赋能中心、数据生态中心和教育创新中心,构建围绕人工智能核心能力的“政产学研用”协同发展机制,加快区域产业智能化升级。
(文章来源:新华财经)