这一围棋AI有何不同?

上海证券报 06-03 06:58

近日,在上海市宝山区智慧湾科创园里,上演了一场人与AI大模型的围棋“智斗”。

这个大模型名为书生·思客(InternThinker),由上海人工智能实验室开发,它在围棋任务上具备较强的专业水平,还能运用自然语言就对弈过程进行“解说”。

现场排队等待与书生·思客对弈的小朋友很多,原计划下午5点结束的活动延迟半小时收摊,成为整个展厅最晚“撤退”的展台之一。

自2016年AlphaGo四比一战胜李世石,随后又三比零战胜当时世界排名第一的柯洁后,各类围棋AI竞相涌现,如国内较为知名的绝艺、星阵、Katago等。书生·思客有何不同之处?

工作人员介绍,相较于直接用围棋棋盘状态训练人工智能的路径,书生·思客要将搜索过程的状态建模转化为语言建模让机器学习,而语言建模的训练计算量大大增加。

训练大模型围棋能力的挑战不止于此。上海人工智能实验室青年研究员李林阳表示:“飞、虎、粘、长等围棋术语是从棋盘画面出发去理解的,而大模型学习下棋时只能根据坐标而非画面来学习,其难度堪比‘盲棋’,即不看棋盘来模拟下棋。”

围棋这项古老的运动也被称为“手谈”,即棋手通过棋盘的落子表达自己对棋局的看法,仿佛用手在棋局中“交谈”。“盲棋”则是对局者之间没有棋盘,完全依靠报出棋盘上的坐标来落子,挑战更大。

据悉,为保证训练效果,上海人工智能实验室研究团队构建了一个“加速训练营”(InternBootcamp),通过对评价建模,与大模型进行交互并提供反馈,从而使大模型持续进化,获得解决复杂推理任务的能力。通过该方法,书生·思客已实现在奥赛级数学、科学对象理解与推理、算法编程、棋类游戏、智力谜题等多个专业任务同步学习演进,并在多任务混合强化学习过程中出现智能“涌现时刻”(在单一任务中,无法成功推理得到奖励的模型,通过多个任务混合的强化学习,能够在训练过程中成功得到奖励,实现领域外专业任务的有效强化学习训练)。

在实操中,书生·思客在与展台的儿童对弈时,均占上风。

李林阳表示,团队最主要的目标并不在于棋力的提升,而是为了锻炼大模型的推理能力、逻辑思维,如此后续可以期待大模型完成更多专业的任务。

“我们将这样专业的能力融合在通用模型里,它就会有更泛化的通用能力。”李林阳说。

这种“通专融合”技术路线由上海人工智能实验室率先提出并不断探索。从大模型发展历程看,主要分化为专业性和通用泛化性两大路线。实验室致力于解决大模型高度专业化和通用泛化性相互制约的发展困境,期待模型不仅在广泛的复杂任务上表现出色,还能在特定领域中达到专业水平。

工作人员告诉记者,在通用大模型的专业任务探索上,起码针对围棋这一任务,书生·思客大模型已经超越不少国内外主流大模型,是首个既具备围棋专业水平,又能展示透明思维链的大模型。

(文章来源:上海证券报)

文章来源:上海证券报
原标题:这一围棋AI,有何不同?
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
证监会批复中央汇金成为8家金融机构实控人 “汇金系”券商扩容引合并遐想
证监会批复中央汇金成为8家金融机构实控人 “汇金系”券商扩容引合并遐想
澎湃新闻 730评论
商务部:目前中欧双方电动汽车案价格承诺磋商进入最后阶段 但仍需双方努力
商务部:目前中欧双方电动汽车案价格承诺磋商进入最后阶段 但仍需双方努力
商务部 111评论
5月外汇储备增加35.93亿美元 黄金储备连续7个月增加
5月外汇储备增加35.93亿美元 黄金储备连续7个月增加
澎湃新闻 248评论
特斯拉人形机器人Optimus项目负责人宣布离职:希望更多陪伴家人
特斯拉人形机器人Optimus项目负责人宣布离职:希望更多陪伴家人
财联社 102评论
打开东方财富APP查看更多内容
24小时点击排行
我的选股思路
悬崖边的李斌:800亿亏损的蔚来还有未来吗?
卖出信号 科技股迎利好 晚间四大消息
6.6收盘:下周将会冲击3400点
海光信息/中科曙光合并何时复牌
点击查看更多内容
写评论 ...