这一围棋AI有何不同？

近日，在上海市宝山区智慧湾科创园里，上演了一场人与AI大模型的围棋“智斗”。

这个大模型名为书生·思客（InternThinker），由上海人工智能实验室开发，它在围棋任务上具备较强的专业水平，还能运用自然语言就对弈过程进行“解说”。

现场排队等待与书生·思客对弈的小朋友很多，原计划下午5点结束的活动延迟半小时收摊，成为整个展厅最晚“撤退”的展台之一。

自2016年AlphaGo四比一战胜李世石，随后又三比零战胜当时世界排名第一的柯洁后，各类围棋AI竞相涌现，如国内较为知名的绝艺、星阵、Katago等。书生·思客有何不同之处？

工作人员介绍，相较于直接用围棋棋盘状态训练人工智能的路径，书生·思客要将搜索过程的状态建模转化为语言建模让机器学习，而语言建模的训练计算量大大增加。

训练大模型围棋能力的挑战不止于此。上海人工智能实验室青年研究员李林阳表示：“飞、虎、粘、长等围棋术语是从棋盘画面出发去理解的，而大模型学习下棋时只能根据坐标而非画面来学习，其难度堪比‘盲棋’，即不看棋盘来模拟下棋。”

围棋这项古老的运动也被称为“手谈”，即棋手通过棋盘的落子表达自己对棋局的看法，仿佛用手在棋局中“交谈”。“盲棋”则是对局者之间没有棋盘，完全依靠报出棋盘上的坐标来落子，挑战更大。

据悉，为保证训练效果，上海人工智能实验室研究团队构建了一个“加速训练营”（InternBootcamp），通过对评价建模，与大模型进行交互并提供反馈，从而使大模型持续进化，获得解决复杂推理任务的能力。通过该方法，书生·思客已实现在奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多个专业任务同步学习演进，并在多任务混合强化学习过程中出现智能“涌现时刻”（在单一任务中，无法成功推理得到奖励的模型，通过多个任务混合的强化学习，能够在训练过程中成功得到奖励，实现领域外专业任务的有效强化学习训练）。

在实操中，书生·思客在与展台的儿童对弈时，均占上风。

李林阳表示，团队最主要的目标并不在于棋力的提升，而是为了锻炼大模型的推理能力、逻辑思维，如此后续可以期待大模型完成更多专业的任务。

“我们将这样专业的能力融合在通用模型里，它就会有更泛化的通用能力。”李林阳说。

这种“通专融合”技术路线由上海人工智能实验室率先提出并不断探索。从大模型发展历程看，主要分化为专业性和通用泛化性两大路线。实验室致力于解决大模型高度专业化和通用泛化性相互制约的发展困境，期待模型不仅在广泛的复杂任务上表现出色，还能在特定领域中达到专业水平。

工作人员告诉记者，在通用大模型的专业任务探索上，起码针对围棋这一任务，书生·思客大模型已经超越不少国内外主流大模型，是首个既具备围棋专业水平，又能展示透明思维链的大模型。