Hluboké „posilování“ je učení robotů nové dovednosti rychleji než kdy jindy

$config[ads_kvadrat] not found

Em tùng v.â.n nói tất• c.ả "sự •thật

Em tùng v.â.n nói tất• c.ả "sự •thật
Anonim

Roboti se učí, jak plnit úkoly ve sped-up virtuálních světech, rozvíjet dovednosti během několika hodin, které by jinak mohly trvat měsíce. Simulované učení hlubokého zesílení (nebo Deep RL) znamená dovednost, která by za normálních okolností trvala 55 dní. učit se v reálném světě trvá jen jeden den v hyperrychlené třídě.

„Má potenciál skutečně revolucionizovat to, co můžeme dělat v oblasti robotiky,“ řekla Raia Hadsell, vědecká pracovnice společnosti Google DeepMind, na summitu Re-Work Deep Learning Summit v Londýně ve čtvrtek. "Můžeme se naučit dovednosti na lidské úrovni."

To může znít proti-intuitivní, jak jistě celý bod robotů je může naučit programátory dělat věci, že jo? Při navrhování stroje, který pracuje v reálném světě, však roboti potřebují spoustu dat, aby pochopili, jak dělat úkol v neznámé situaci. A.I. mohou tato data použít k tomu, aby se „naučili“ dovednosti založené na všech případech, které přišly dříve.

Hluboké zesilování učení shromažďuje tato data v podobném způsobem, jak se lidé učí: robot dokončí úkol opakovaně, jako je chytání míče, a zaznamenat data vybudovat obraz, jak nejlépe chytit míč v nové situaci. Když DeepMind použil model v roce 2013 k tomu, aby naučil robota, jak zvládnout hry Atari, jednoduše tím, že ho posadí před obrazovku a řekne mu konečný cíl, vědecká komunita ho milovala.

Problém je, že to trvá věčně. Je třeba opakovaně házet míčky na robota nebo v případě Atari nechat robota na chvíli v pokoji. Spuštění simulace MuJoCo v kombinaci s progresivní neuronovou sítí mohou trenéři spustit program, který napodobuje robota, přenáší naučené chování na robota a mapuje virtuální pohyby do reálného světa.

"Můžeme provozovat tyto simulátory celý den a celou noc," řekl Hadsell.

Výsledky hovoří samy za sebe. Tento robot, který získal svůj diplom v chytání, nyní může sledovat virtuální míče, jako by byli skuteční, a připravit ho na velký den, kdy se žádá, aby chytil skutečný míč:

$config[ads_kvadrat] not found