Hluboké „posilování“ je učení robotů nové dovednosti rychleji než kdy jindy

Em tùng v.â.n nói tất• c.ả "sự •thật

Roboti se učí, jak plnit úkoly ve sped-up virtuálních světech, rozvíjet dovednosti během několika hodin, které by jinak mohly trvat měsíce. Simulované učení hlubokého zesílení (nebo Deep RL) znamená dovednost, která by za normálních okolností trvala 55 dní. učit se v reálném světě trvá jen jeden den v hyperrychlené třídě.

„Má potenciál skutečně revolucionizovat to, co můžeme dělat v oblasti robotiky,“ řekla Raia Hadsell, vědecká pracovnice společnosti Google DeepMind, na summitu Re-Work Deep Learning Summit v Londýně ve čtvrtek. "Můžeme se naučit dovednosti na lidské úrovni."

To může znít proti-intuitivní, jak jistě celý bod robotů je může naučit programátory dělat věci, že jo? Při navrhování stroje, který pracuje v reálném světě, však roboti potřebují spoustu dat, aby pochopili, jak dělat úkol v neznámé situaci. A.I. mohou tato data použít k tomu, aby se „naučili“ dovednosti založené na všech případech, které přišly dříve.

Hluboké zesilování učení shromažďuje tato data v podobném způsobem, jak se lidé učí: robot dokončí úkol opakovaně, jako je chytání míče, a zaznamenat data vybudovat obraz, jak nejlépe chytit míč v nové situaci. Když DeepMind použil model v roce 2013 k tomu, aby naučil robota, jak zvládnout hry Atari, jednoduše tím, že ho posadí před obrazovku a řekne mu konečný cíl, vědecká komunita ho milovala.

Problém je, že to trvá věčně. Je třeba opakovaně házet míčky na robota nebo v případě Atari nechat robota na chvíli v pokoji. Spuštění simulace MuJoCo v kombinaci s progresivní neuronovou sítí mohou trenéři spustit program, který napodobuje robota, přenáší naučené chování na robota a mapuje virtuální pohyby do reálného světa.

"Můžeme provozovat tyto simulátory celý den a celou noc," řekl Hadsell.

Výsledky hovoří samy za sebe. Tento robot, který získal svůj diplom v chytání, nyní může sledovat virtuální míče, jako by byli skuteční, a připravit ho na velký den, kdy se žádá, aby chytil skutečný míč:

Proč posilování učení odemkne autonomní auta pro masy

Namísto toho, aby programové vozy předvídaly všechny možné scénáře, mohou inženýři programovat auta, aby se naučili, jak navigovat scénáři prostřednictvím posilování učení.

IOS 12: 4 Funkce, které učiní nové a staré aplikace užitečnější než kdy jindy

Třetí verze veřejné beta verze iOS 12 od společnosti Apple vylepšila klasické aplikace a do nových aplikací, které byly právě představeny, již byly začleněny nové funkce. Zjistěte, jak jsou programy, na které jste byli zvyklí, a ty, které právě poznáte, více informací přímo na dosah ruky.

Švédští internetoví piráti platí více za právní obsah než kdy jindy

Ve Švédsku se internetové pirátství nepovažuje za okrajovou činnost; je to legitimní politická věc. Skandinávští libertariáni dat však podle nové studie Internetové nadace ve Švédsku stále méně a méně obsahově omezují obsah, který ukazuje, že uživatelé torrentingových služeb budou stále více platit.