更快更高更強(qiáng)!網(wǎng)易互娛AI Lab奪得IJCAI 2022 AI Olympics競(jìng)賽冠軍

更新時(shí)間:2024-08-03

近日,國(guó)際人工智能頂級(jí)會(huì)議IJCAI 2022 AI 奧林匹克競(jìng)賽結(jié)果出爐,網(wǎng)易互娛AI Lab的隊(duì)伍從來(lái)自學(xué)術(shù)界和工業(yè)屆的眾多參賽隊(duì)伍中脫穎而出,以1482.32分的成績(jī)大幅領(lǐng)先其他隊(duì)伍奪得冠軍。網(wǎng)易互娛AI Lab研發(fā)的Athena AI系統(tǒng)再次登頂國(guó)際AI智能體競(jìng)賽,展現(xiàn)了網(wǎng)易互娛AI Lab在人工智能領(lǐng)域的綜合技術(shù)實(shí)力。

國(guó)際人工智能聯(lián)合會(huì)議(IJCAI, International Joint Conference on Artificial Intelligence)是人工智能領(lǐng)域中最重要的頂級(jí)會(huì)議之一,是中國(guó)計(jì)算機(jī)學(xué)會(huì)CCF推薦的A類(lèi)會(huì)議。本次比賽中的游戲環(huán)境是對(duì)奧林匹克項(xiàng)目進(jìn)行的模擬,包括冰壺、足球、跑步、桌面曲棍球、相撲、桌球等,參賽者需使用各種人工智能方法開(kāi)發(fā)能夠參與不同奧林匹克運(yùn)動(dòng)的智能體,并和所有其他隊(duì)伍的智能體進(jìn)行對(duì)抗,這對(duì)智能體的泛化性提出了挑戰(zhàn)。此外,比賽還模擬了真實(shí)場(chǎng)景下運(yùn)動(dòng)員視野范圍有限的情況,要求智能體僅憑借部分可觀(guān)測(cè)的信息進(jìn)行決策。

比賽環(huán)境的具體規(guī)則如下:

游戲共有兩方,對(duì)戰(zhàn)雙方各控制一個(gè)有相同質(zhì)量和半徑的彈性小球智能體。

智能體可以互相碰撞,也可以碰撞墻壁,但可能會(huì)損失一定的速度。智能體自身有能量,每步消耗的能量與施加的驅(qū)動(dòng)力和位移成正比。智能體能量同時(shí)以固定速率恢復(fù),如果能量衰減到零,智能體出現(xiàn)疲勞,導(dǎo)致不能加力。

整個(gè)游戲會(huì)依次運(yùn)行以下幾個(gè)子游戲:在跑步中,智能體的目標(biāo)是在隨機(jī)選擇的地圖上盡快到達(dá)終點(diǎn)。在桌面曲棍球中,智能體的目標(biāo)是通過(guò)碰撞將球打入對(duì)手的球門(mén)且防止自家球門(mén)被攻破,智能體只能在己方的場(chǎng)地中移動(dòng)。在足球中,智能體的目標(biāo)與桌面曲棍球項(xiàng)目相同,但是智能體能夠在球場(chǎng)上任意活動(dòng)。 在相撲中,智能體的目標(biāo)是避免摔下擂臺(tái)并且爭(zhēng)取將對(duì)方撞下擂臺(tái)。在桌球中,智能體需要在盡可能短的時(shí)間內(nèi)將桌面上的球打進(jìn)洞且避免母球落袋。在冰壺中,雙方智能體在兩輪中分別作為先后手向場(chǎng)地中央的目標(biāo)點(diǎn)拋擲小球,每輪每方智能體有三次拋擲的機(jī)會(huì),小球在通過(guò)紅線(xiàn)后不能再對(duì)其施加力,目標(biāo)是相較對(duì)手有更多的球靠近中央目標(biāo)點(diǎn)。當(dāng)所有子游戲結(jié)束后,游戲結(jié)束。

每方在贏(yíng)得一場(chǎng)子游戲后獲得1分,輸?shù)粢粓?chǎng)子游戲獲得0分,整個(gè)游戲的得分為所有子游戲上的得分之和。[迷你句子網(wǎng) JzD365.cOm]

1

本次比賽由中國(guó)科學(xué)院自動(dòng)化研究所主辦,吸引了來(lái)自嗶哩嗶哩、麻省理工學(xué)院、清華大學(xué)、中科院、上海交通大學(xué)、浙江大學(xué)等眾多學(xué)術(shù)界和工業(yè)界的隊(duì)伍,其中還包括了上一屆AI奧林匹克競(jìng)賽的冠軍。來(lái)自網(wǎng)易互娛AI Lab的隊(duì)伍“高唐體?!笔状螀①?,就在初賽和復(fù)賽中以1476.85分和1484.66分的成績(jī)一路領(lǐng)先,最終憑借1482.32分大比分領(lǐng)先其他隊(duì)伍奪冠。

2

比賽中的桌球和冰壺環(huán)境:

3

4

?

方案介紹

網(wǎng)易互娛AI Lab研發(fā)的Athena AI系統(tǒng),使用了自研的分布式深度強(qiáng)化學(xué)習(xí)框架進(jìn)行智能體訓(xùn)練。該框架不但訓(xùn)練高效,也能支持同時(shí)模擬和數(shù)百種不同風(fēng)格的對(duì)手進(jìn)行對(duì)戰(zhàn)的場(chǎng)景,因此能夠在此次比賽中面對(duì)各種未知對(duì)手時(shí)穩(wěn)定取勝。

模型設(shè)計(jì)如圖所示,主要使用了深度殘差網(wǎng)絡(luò)對(duì)圖像輸入進(jìn)行編碼。其中輸入共分為4個(gè)部分,分別為兩種圖像輸入和兩種標(biāo)量輸入:為了處理環(huán)境自身的部分可觀(guān)測(cè)(POMDP)特性,模型輸入會(huì)有取舍地采樣每次決策前60幀內(nèi)的部分?jǐn)?shù)據(jù)(Past Frames)進(jìn)行堆疊,還會(huì)有一些其他標(biāo)量信息如智能體坐標(biāo)、體力等(Vector Feature);考慮到冰壺環(huán)境的特殊性,在該環(huán)境中智能體還會(huì)提前觀(guān)察冰壺中心區(qū)域的信息(Curling Center)作為輸入;最后智能體還額外使用了一些能從環(huán)境中獲取到的全局完美信息(Perfect Info)輔助預(yù)測(cè)狀態(tài)價(jià)值。

動(dòng)作空間的建模上使用了離散化的多頭輸出,對(duì)移動(dòng)方向(Angle)和施力大?。‵orce)分別建模,在優(yōu)化復(fù)雜度僅線(xiàn)性增加的情況下將動(dòng)作空間大幅提升至3600維,使智能體在微操上更加靈活。相較于其他參賽隊(duì)伍,智能體也表現(xiàn)出了更加多樣的策略,例如在冰壺環(huán)境中大多數(shù)隊(duì)伍采用基于規(guī)則的方法,而網(wǎng)易互娛AI Lab的智能體通過(guò)訓(xùn)練學(xué)會(huì)了多角度擊打、封鎖對(duì)方后手等高級(jí)戰(zhàn)術(shù)。

5

關(guān)于互娛AI Lab和Athena AI系統(tǒng)

網(wǎng)易互娛AI Lab成立于2017年,隸屬于網(wǎng)易互動(dòng)娛樂(lè)事業(yè)群,是游戲行業(yè)領(lǐng)先的人工智能實(shí)驗(yàn)室。AI Lab所提供的人工智能服務(wù)包括計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音信號(hào)處理、游戲AI多個(gè)方面。目前技術(shù)已應(yīng)用于網(wǎng)易互娛旗下多款熱門(mén)游戲,如《夢(mèng)幻西游》、《哈利波特:魔法覺(jué)醒》、《陰陽(yáng)師》、《大話(huà)西游》、《荒野行動(dòng)》等等。

Athena AI是互娛AI Lab研發(fā)的游戲AI系統(tǒng),應(yīng)用了前沿的模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、進(jìn)化學(xué)習(xí)算法實(shí)現(xiàn)游戲中的競(jìng)技對(duì)戰(zhàn)、友好陪玩、平衡性測(cè)試等AI需求,目前已落地互娛多款不同類(lèi)型的游戲。

更快更高更強(qiáng)!網(wǎng)易互娛AI Lab奪得IJCAI 2022 AI Olympics競(jìng)賽冠軍