Algoritmus, který zvládl 'Pong' nyní vynikající na 'Flappy Bird', stále Single

$config[ads_kvadrat] not found

Co je to algoritmus? - Vědecké kladivo AK 16

Co je to algoritmus? - Vědecké kladivo AK 16
Anonim

Zlepšení metody hlubokého učení, která byla průkopníkem Pong, Vesmírní vetřelci a další hry Atari, student počítačové vědy Stanford University Kevin Chen vytvořil algoritmus, který je docela dobrý na klasickém bočním scrolleru 2014 Flappy Bird. Chen využil koncept známý jako „q-learning“, ve kterém agent usiluje o zlepšení svého odměnového skóre s každou iterací hry, aby dokončil téměř nemožnou a neuvěřitelně návykovou hru.

Chen vytvořil systém, ve kterém byl jeho algoritmus optimalizován tak, aby hledal tři odměny: malou pozitivní odměnu za každý snímek, který zůstal naživu, velkou odměnu za průchod potrubím a stejně velkou (ale negativní) odměnu za umírání. Takzvaná hluboko-síťová síť tak může podle zprávy Chena přehrát člověka, “napsal:„ Byli jsme schopni úspěšně hrát hru Flappy Bird učením se přímo z pixelů a skóre, dosahováním super-lidských výsledků. “

Původní papír Atari, publikovaný v roce 2015 v roce 2005 Příroda, přišel z Google-vlastnil DeepMind společnost (nyní slavný jeho mistrovstvím starověké čínské deskové hry jít). Úspěch DeepMindu byl průlom v tom, že přinášel vizuální - nebo pixelové - přinejmenším informace, as minimálními vstupy byl schopen maximalizovat odměny. Takový systém odměn byl přirovnáván k dopaminergní reakci mozku, prostě zjednodušený.

Není to poprvé, co algoritmus dobyl pleskavého ptáka: dřívější třída studentů na univerzitě ve Stanfordské univerzitě vytvořila program, který se při tréninku přes noc zlepšil z 0 trubek na 1 600.

$config[ads_kvadrat] not found