小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

界面新闻 06-19 20:39

6月19日,小红书技术团队发文称,深度思考模型通过Test-Time Scaling(测试时扩展)大幅提升了模型推理能力,但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式;在不影响最终效果的前提下,实现动态CoT能力,大幅降低平均思考长度。实验证明,这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象:即在相同任务下,越聪明(参数量大)的模型,需要的思考长度越短;这与当前深度思考模型表现相违背,却十分符合人类的认知。

(文章来源:界面新闻)

文章来源:界面新闻
原标题:小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
郑重声明:东方财富发布此内容旨在传播更多信息,与本站立场无关,不构成投资建议。据此操作,风险自担。
热点阅读
热门赛道重磅发布!医疗器械利好来了!
热门赛道重磅发布!医疗器械利好来了!
证券时报网 681评论
以军约15架战机对伊朗发动新一轮空袭!特朗普发声:可能会支持停火!
以军约15架战机对伊朗发动新一轮空袭!特朗普发声:可能会支持停火!
每日经济新闻 505评论
全球市场:美股涨跌不一 “稳定币第一股”Circle涨超20%、创收盘历史新高
全球市场:美股涨跌不一 “稳定币第一股”Circle涨超20%、创收盘历史新高
东方财富研究中心 141评论
跨境支付通落地!内地与香港居民可线上实时转账
跨境支付通落地!内地与香港居民可线上实时转账
上海证券报 68评论
打开东方财富APP查看更多内容
24小时点击排行
午后大盘风云走向(周五)
只有“运筹”帷幄之中,才能“决胜”千里之外!
鸿博股份:算力租赁龙头,净利润同比增长437.46%!
钝刀子割肉
泡泡玛特重挫!新消费的危机可能才刚开始
点击查看更多内容
写评论 ...