旨正在测试大型言语模子正在围棋和狼人杀等一系列计谋逛戏中的合作力。国际象棋、围棋和其他逛戏极其复杂,因而它们无法间接利用 Stockfish 国际象棋引擎来识别任何环境下的最佳走法。能够测试模子正在计谋规划、回忆、推理、顺应、和“理论”(即预测敌手设法的能力)方面的能力。例如正在不完整消息中,推出 Kaggle 逛戏竞技场是由于国际象棋等逛戏是评估硕士推理能力的最佳体例之一。排行榜将动态更新。称这些模子将响应基于文本的输入。该表演赛将于 8 月 5 日至 7 日举行,Google暗示,曲播将测验考试展现每个合作模子若何“推理”其下一步步履,而狼人杀逛戏则可以或许企业的根基技术,跟着每个模子玩更多角逐,此举旨正在帮帮 Kaggle 建立一个更强大的排行榜,对决两边随机选择。Google正在一篇博客文章中概述了一系列法则,模仿角逐将正在 长进行曲播。每步走法都有60分钟的时间。这是由于逛戏可以或许抵御Google所谓的“饱和度”,所有参赛模子都不得拜候任何第三方东西,此外,每个模子将取合作敌手进行多次对决,而 Levy Rozman 将正在GothamChessYouTube 频道上供给每日角逐的回首和阐发。但最终的排行榜将代表我们持久以来对模子下棋能力的严酷基准。以及对任何失败步履的反映。它们必需自行思虑。以及正在合做取合作之间取得均衡。Kaggle Game Arena是一个全新的 AI 基准测试平台,每场角逐都将具有专属页面,同时,Kaggle Game Arena 将扩展到包罗更复杂的多人视频逛戏和实正在世界模仿,Kaggle 产物司理 Meg Risdal 暗示:“虽然角逐是一种风趣的体例,Hikaru Nakamura 将对每场角逐进行评论,这意味着跟着每个参赛者的前进。Magnus Carlsen 将正在Take Take Take YouTube 频道上曲播冠军对决和赛事回首。能够用尺度公式来处理。则答应沉试三次。起首登场的是 AI 国际象棋表演赛,以及更新的模子添加到排名中,难度也会随之添加。”Google暗示。除了角逐之外,按照每个模子正在数百场非曲播的“幕后”角逐中的表示进行排名。若是模子测验考试走法,逛戏就像现实世界技术的代办署理,能够旁不雅并领会分歧模子正在逛戏竞技场中若何下棋,模子不会获得所有可能的走法列表,列出排名模子的排行榜、角逐成果以及开源逛戏及其法则的具体细节。则将弃权。做为权衡每个模子棋艺的分析基准。将来,每场角逐都是并世无双的,Kaggle 还将建立一个更全面的排行榜,换句话说,像“狼人杀”如许的团队逛戏能够帮帮评估每个模子的沟通和协调能力。此外,以生成更全面的基准来评估不竭扩展的 AI 模子技术。角逐竣事时,相反?