Nejlepší výukové nástroje/platformy posilování v roce 2022

Co je posilovací učení?

Posílení učení je jednou podobou strojového učení. Zahrnuje to správné jednání s cílem maximalizovat odměnu za konkrétních okolností. Používají ho různé programy a stroje k určení optimálního postupu, který je třeba v daném případě sledovat. Posílené učení nemá správné nebo špatné řešení; místo toho posilující agent rozhodne, co udělat pro dokončení úkolu. To se liší od učení pod dohledem, kde trénovací data obsahují klíč řešení a model je trénován s touto odpovědí. Je povinen získat znalosti ze svých zkušeností bez tréninkového souboru dat.

Hlavní body posilovacího učení

  • Vstup: Vstup by měl představovat výchozí bod pro model.
  • Výstup: Existuje tolik možných výstupů, kolik různých způsobů řešení konkrétního problému.
  • Školení: Školení je založeno na vstupu. Uživatel si vybere, zda model odmění nebo penalizuje na základě jeho stavu návratnosti.
  • Model se nikdy nepřestane učit.
  • Nejlepší postup je vybrán na základě nejvýznamnějšího přínosu.

Existují dvě různé kategorie zesílení:

Pozitivní –

Pozitivní posílení je, když událost, která je výsledkem určitého chování, zesílí a stane se častější. Jinými slovy, ovlivňuje chování dobrým způsobem.

Následující výhody posilovacího učení:

  • Výkon Boost
  • Udržujte změny po delší dobu
  • Výsledky mohou být oslabeny přemírou stavů způsobených nadměrným posilováním.

negativa –

Negativní posilování posiluje chování zastavením nebo vyhnutím se negativnímu stavu.

Mezi výhody posílení učení patří:

  • Zlepšuje chování
  • Ukažte pohrdání požadovanou úrovní výkonu
  • Nabízí pouze dostatečné zdroje pro splnění nezbytného minima chování.
Nejlepší nástroje/platformy/knihovny pro výuku
tělocvična OpenAI

Nejoblíbenější platforma pro vytváření a porovnávání výukových modelů posilování, OpenAI Gym, je plně kompatibilní s výkonnými výpočetními knihovnami, jako je TensorFlow. Bohaté simulační prostředí umělé inteligence založené na Pythonu podporuje školení agentů pomocí tradičních videoher, jako je Atari, a dalších vědeckých disciplín, jako je robotika a fyzika, pomocí nástrojů, jako jsou simulátory Gazebo a MuJoCo.

Prostředí tělocvičny navíc poskytuje API pro pozorování krmení a odměňování agentů. Nová platforma s názvem Gym Retro, vytvořená OpenAI, byla právě zpřístupněna. Má 58 odlišných a odlišných scénářů z videoher Sonic the Hedgehog, Sonic the Hedgehog 2 a Sonic 3. Do této výzvy se mohou přihlásit vývojáři her s umělou inteligencí a nadšenci do učení.

TensorFlow

Více než 95 000 vývojářů používá tuto známou open source knihovnu od společnosti Google každý den v oblastech, jako je robotika, inteligentní chatboti a zpracování přirozeného jazyka. TensorLayer, rozšíření TensorFlow vytvořené komunitou, nabízí oblíbené moduly RL, které se snadno přizpůsobují a sestavují k řešení praktických problémů strojového učení.

Komunita TensorFlow podporuje vývoj frameworku v nejpoužívanějších jazycích, včetně Pythonu, C, Javy, JavaScriptu a Go. Aby bylo možné strojové učení na platformě Apple umožnit, Google a jeho tým TensorFlow pracují na vývoji verze kompatibilní se Swift.

Keras

Díky menšímu počtu řádků kódu a rychlejšímu provádění Keras zjednodušuje implementaci neuronové sítě. Zaměřuje se na modelovou architekturu a nabízí starším vývojářům a hlavním vědcům rozhraní na vysoké úrovni k výpočetnímu rámci TensorFlow pro vysoké tenzory. Pokud tedy již máte nějaké RL modely vytvořené v TensorFlow, stačí si vybrat framework Keras a aplikovat své učení na příslušnou výzvu strojového učení.

Deep Mind Lab

3D platforma Google s přizpůsobením pro výzkum AI na bázi agentů se nazývá DeepMind Lab. Používá se k pochopení toho, jak autonomní umělí agenti získávají složité dovednosti v rozsáhlých, nepozorovaných prostředích. DeepMind si získal popularitu poté, co jeho program AlphaGo porazil hráče na začátku roku 2016. Tým DeepMind se ve svých třech centrech v Londýně soustředí na základní základy umělé inteligence, včetně vývoje jediného systému umělé inteligence podporovaného špičkovými technikami a distribucí. , Kanadě a Francii.

Pytorch

Další známou knihovnou hlubokého učení, kterou používají mnozí výzkumníci posilujícího učení, je Pytorch, kterou Facebook veřejně zpřístupnil. V nedávné soutěži Kaggle jej 10 nejlepších hráčů prakticky všeobecně favorizovalo. Praktici RL jej moudře používají k provádění experimentů s vytvářením agentů založených na zásadách a k vývoji nových dobrodružství, protože má dynamické neuronové sítě a výkonnou akceleraci GPU. Playing GridWorld je jeden šílený výzkumný projekt, ve kterém Pytorch odemkl svůj potenciál pomocí dobře známých technik RL, jako je gradient politiky a zjednodušená metoda herec-kritický.

Dopamin od Googlu

Dopamin má posílit učení, co jsou cheaty pro videohry. Dopamin je v podstatě zkratka pro praxi v reálném životě. Je navržen tak, aby pomáhal výzkumníkům při prezentaci rychlých výsledků při použití RL. Je založen na Tensorflow, i když to není produkt Google.

Dopamin se snaží být přizpůsobivý, spolehlivý a opakovatelný. První iterace se zaměřuje na podporu špičkového agenta Rainbow s jedním GPU používaného pro hraní her Atari 2600 (Hessel et al., 2018). (Bellemare et al., 2013). Ke kódování RL je zapotřebí složité nastavení a řada procesů. S pomocí dopaminu to můžete zmírnit.

ReAgent Facebooku

Reagent, dříve známý jako Horizon, se snaží trénovat RL modely v dávkovém kontextu. Rámec je zcela založen na PyTorch, podobně jako je tomu u Facebooku. Příprava dat je prvním krokem v pracovním postupu, se kterým framework pomáhá. Cílem Reagentu je nasazení v reálném čase, nikoli rychlé experimentování.

Oficiální literatura uvádí šest hlavních algoritmů, na kterých můžete pracovat, ale s trochou fantazie je zde prostor pro výrazný růst. Rámec se soustředí na kompletní pracovní postup a jeho použití může ve skutečnosti přinést dobré výsledky. Hlavním problémem je, že neexistuje žádný instalátor pip, což zpochybňuje používání tohoto rámce. Oficiální papír a zdrojový kód jsou k dispozici zde.

Huskarl

Huskarl je založen na TensorFlow a Keras a znamená ve staré norštině „bojovník“. Do seznamu open-access RL frameworků je to nedávný přírůstek. Huskarl slibuje, že bude modulární a rychle se vytvoří prototyp. Huskarl, který je extrémně výpočetně náročný, usnadňuje použití mnoha jader CPU pro paralelní výpočty. Jedna z hlavních příčin rychlého prototypování je toto.

Huskarl je kompatibilní s Unity3d pro multi-agentní prostředí a Open AI gym, které si krátce popíšeme. Nyní lze použít pouze několik algoritmů, ale další jsou na cestě.

OpenGame od DeepMind

Jedním z nejčastějších přispěvatelů do zásobníků hlubokého učení s otevřeným zdrojovým kódem je DeepMind. Dokonce i v roce 2019 odhalila společnost Alphabet DeepMind OpenSpiel, rámec pro výuku zaměřený na hry. Rámec se skládá ze souboru prostředí a algoritmů, které mohou podporovat výzkum obecného posilovacího učení, zejména při aplikaci na hry. Kromě nástrojů pro procházení a plánování ve hrách nabízí OpenSpiel také nástroje pro studium dynamiky učení a další široce používané metriky hodnocení.

Framework podporuje více než 20 různých typů her pro jednoho a více agentů, jako jsou sekvenční, kooperativní hry, hry s nulovým součtem a jednorázové hry. Tedy kromě her s přísnými požadavky na tah, aukčních her, maticových her a her se simultánním tahem, stejně jako dokonalých her (kde mají účastníci při rozhodování vynikající znalosti o všech událostech, které se již staly) a nedokonalé informační hry (kde se rozhoduje současně).

TF agenti TensorFlow

Rámec TF-Agents pro TensorFlow byl vytvořen jako paradigma infrastruktury s otevřeným zdrojovým kódem na podporu vývoje paralelních RL algoritmů. Aby bylo pro uživatele jednodušší vyvíjet a aplikovat algoritmy, framework nabízí řadu komponent, které odpovídají kritickým prvkům RL problému.

Prostředí rámce jsou všechna vytvořena pomocí jedinečných procesů Pythonu. Platforma napodobuje dvě simultánní prostředí namísto provádění osamělých pozorování a místo toho spouští výpočet neuronové sítě v dávce. Výsledkem je, že motor TensorFlow nyní může paralelizovat výpočty bez lidské synchronizace.

O AI’s Fiber

Potřeba výpočetních zdrojů vzrostla spolu s počtem projektů strojového učení. Uber AI představil Fiber, knihovnu založenou na Pythonu, která funguje s počítačovými clustery, aby pomohla vyřešit tento problém. Původním cílem vývoje společnosti Fiber byla podpora rozsáhlých paralelních počítačových iniciativ v rámci Uberu.

Stejně jako ipyparallel, spark a standardní modul multiprocessingu Pythonu je Fiber iPython pro paralelní výpočty. Vlákno bylo rozděleno do tří vrstev: vrstva clusteru, vrstva backend a vrstva API, aby běželo na různých systémech správy clusteru. Podle výzkumu Uber AI si Fiber vedl lépe než jeho konkurenti na kratší práce.

Fiber je zručný ve zvládání chyb v bazénech. Fronta úloh přidružená k novému fondu, fronta výsledků a tabulka čekajících na vyřízení jsou vytvořeny současně. Každý nový úkol je vložen do linky a distribuován mezi pracovníky a hlavní procesy. Uživatel vybere úlohu z fronty a provede její funkce. Po dokončení úlohy z fronty úloh se do nevyřízené tabulky přidá záznam.

pyqlearning

K implementaci RL se používá Python knihovna Pyqlearning. Klade důraz na multiagentní Deep Q-Network a Q-Learning. Pyqlearning nabízí designové prvky spíše než špičkové „černé skříňky“ pro koncové uživatele. Může vytvářet algoritmy pro vyhledávání informací, jako jsou webové prohledávače nebo GameAI. V důsledku toho je použití této knihovny náročné.

Trenér RL

Výukový rámec Pythonu s řadou špičkových algoritmů se nazývá Reinforcement Learning Coach (Coach) od Intel AI Lab.

Vystavuje kolekci snadno použitelných API pro testování nových RL algoritmů. Části knihovny jsou modulární, včetně algoritmů, prostředí a návrhů neuronových sítí. Je tedy relativně jednoduché rozšířit a znovu použít stávající komponenty.

MushroomRL

S MushroomRL můžete používat oblíbené knihovny Pythonu pro tensor computing a RL benchmarky, díky modulárnímu designu knihovny.

Poskytuje hluboké RL algoritmy a standardní RL techniky pro umožnění RL experimentování. Koncept MushroomRL je poskytnout standardní rozhraní, přes které lze většinu RL algoritmů provádět s minimálním úsilím.

Please Don't Forget To Join Our 5,000+ ML Subreddit

Reference:

  • https://www.geeksforgeeks.org/what-is-reinforcement-learning/
  • https://hub.packtpub.com/tools-for-reinforcement-learning/
  • https://medium.com/the-research-nest/top-frameworks-to-explore-reinforcement-learning-b543aaf496e8
  • https://analyticsindiamag.com/top-5-open-source-reinforcement-learning-frameworks/
  • https://neptune.ai/blog/the-best-tools-for-reinforcement-learning-in-python


Prathamesh Ingle je autorem konzultačního obsahu na MarktechPost. Je strojním inženýrem a pracuje jako datový analytik. Je také praktikem AI a certifikovaným Data Scientist se zájmem o aplikace AI. Je nadšený z objevování nových technologií a pokroků s jejich reálnými aplikacemi


Leave a Reply

Your email address will not be published.