Jak DeepMind vyvinul Eierily self-učil A.I. To může přelstít lidi

$config[ads_kvadrat] not found

AI Learns to Follow my Cursor | AI with Ash47

AI Learns to Follow my Cursor | AI with Ash47

Obsah:

Anonim

Počítače kopaly naše křehké lidské zadky na šachy několik desítek let. Poprvé se to stalo v roce 1996, kdy byl Deep Blue společnosti IBM schopen převzít mistra světa Garyho Kasperova. Ale nová studie z abecedy A.I. outfit DeepMind vrhá světlo na to, jak omezený je rozsah, v jakém bylo rané vítězství skutečně.

Kasperov se na jednu stranu odrazil zpět, vyhrál tři hry a dvakrát vylosoval v šest playoff Denní zprávy zpráva.

Ale mnohem více, jak říká DeepMind výzkumník Julian Schrittwieser Inverzní, aplikace jako Deep Blue byly také programovány ručně. To znamená, že lidé museli učit A.I. vše, co bylo potřeba vědět o tom, jak zvládnout každou představitelnou situaci. Jinými slovy, mohlo by to být jen tak dobré jako programování lidí. A zatímco Deep Blue byl zřejmě schopen se v šachu docela dobře dostat; dejte mu jinou, podobnou hru jako Go a bylo to bezradné.

Alfa Zero je zcela jiné. V nové studii publikované dnes v časopise Věda, autoři ukazují, jak byli schopni nejen naučit Alpha Zero, jak porazit lidi v šachu, ale jak naučit Alfa Zero jak učit se zvládnout více her.

Jak učit A.I. Učit se

Alfa Zero byla vyvinuta pomocí techniky nazvané hluboké zesilování učení. Jedná se v podstatě o výuku A.I. něco velmi jednoduchého, jako jsou základní pravidla šachu, a pak dělání této jednoduché věci znovu a znovu, dokud se nenaučí složitější, zajímavé věci, jako jsou strategie a techniky.

"Tradičně… lidé by si vzali své znalosti o hře a snažili se ji kódovat v pravidlech," říká Schrittwieser, který na Alpha Zero pracuje téměř čtyři roky. "Náš přístup je inicializovat náhodně, a pak nechat hrát hry proti sobě, a od těchto her sám se může dozvědět, jaké strategie pracovat."

Všechny Alpha Zero dostane základní pravidla, a odtud se naučí, jak vyhrát tím, že hraje sám. Podle nových poznatků to trvalo jen devět hodin, než Alpha Zero zvládl šachy, 12 hodin zvládl šógi a asi 13 dní zvládl Go. Protože hraje sám, je to v podstatě samouk. To bylo dělané mincemeat všech světových šampionů člověk-řízené algoritmy, porazil mistra světa 2017 v Shogi 91 procent času.

„To může nezávisle objevit zajímavé znalosti o hře,“ říká Schrittwieser. „Vede to k programům, které hrají více lidí.“

I když je jeho styl lidský a kreativní, je také pravděpodobné, že je to optimální, jak říká, takže Alpha Zero by měl být schopen dominovat v téměř každé hře, ve které má přístup ke všem dostupným informacím. Ve skutečnosti je Alpha Zero tak sofistikované, že se možná budeme muset přestěhovat do zcela jiné třídy her, abychom udrželi hranice toho, jak A.I. řeší problémy.

Proč je Alpa nula tak dobrá

A.I. výzkumníci rádi používají tyto hry jako testovací základ pro stále sofistikovanější formy algoritmů z několika důvodů. Jsou elegantní a lidé si je už stovky let hrají, což znamená, že máte spoustu potenciálních vyznavačů, abyste mohli testovat váš algoritmus. Jsou však také složité a složité, což znamená, že mohou sloužit jako odrazový můstek A.I. které mohou řešit problémy v reálném světě. Schrittwieser říká, že další oblastí výzkumu je vytvoření algoritmu, jako je Alpha Zero, který může stále rozhodovat s nedokonalými informacemi.

„Ve všech těchto hrách víte vše, co se děje,“ říká. „V reálném světě můžete znát jen část informací. Můžete znát své vlastní karty, ale svého soupeře neznáte, máte částečné informace. “

Stále existuje několik boardgames schopných dát takové algoritmy, jako je Alpha Zero - Schrittwieser zmínil Stratego, ve kterém hráči skrývají své pohyby od sebe navzájem - a Starcraft, což je další oblast zájmu výzkumníků DeepMind zaměřených na hry.

„Chceme, aby se problémy, s nimiž se zabýváme, staly stále složitější,“ říká. "Ale vždy je to vždy jedna dimenze."

Příští generace počítačově řešených řešení problémů Deep Mind zároveň ukazuje potenciál pro přechod z herního světa do reálného světa. Začátkem tohoto týdne oznámila další algoritmus nazvaný AlphaFold, který je schopen extrapolovat proteinovou sekvenci do přesné predikce její 3D struktury.Je to problém, který je po desetiletí zmaten vědci a mohl by pomoci otevřít dveře lékům na nemoci od Alzheimerovy choroby až po cystickou fibrózu.

$config[ads_kvadrat] not found