Mesiac: december 2023

Abstrakt: RL-Toolkit: Návrh a implementácia súboru nástrojov pre posilňovanie učenia v robotike

Abstrakt: RL-Toolkit: Návrh a implementácia súboru nástrojov pre posilňovanie učenia v robotike

Abstrakt: Tento článok predstavuje novú sadu nástrojov na samoučenie robotov v simulovaných prostrediach so zameraním na maximalizáciu skóre výkonu úloh. Navrhovaná metóda využíva umelú neurónovú sieť na transformáciu meraní senzorov na vektor akcií, t. j. pohybov motorov robota, pričom využíva princípy posilňovania učenia na maximalizáciu kvality stavových prechodov vyplývajúcich z vykonaných akcií. Na ukladanie údajov o interakciách získaných počas simulácií sa využíva databázový server Reverb. Experimentálne výsledky preukazujú výrazné zlepšenie o 9,38 % oproti publikovaným výsledkom pôvodných algoritmov. Konštrukcia RL-Toolkit pozostáva z databázového servera, nástroja na monitorovanie váh a odchýlok a podpory troch populárnych simulačných prostredí (Gymnasium, DeepMind Control Suite a PyBullet). Okrem toho sa uvádza návrh architektúry na použitie súpravy RL-Toolkit na reálnych robotoch, ktorý ukazuje jej potenciál na praktickú implementáciu. Viac ANS2023 – Book of Abstracts Kubovcik

Publikácia: Detekcia nezvyčajností signálu ako vnútorná odmena pre robotiku

Publikácia: Detekcia nezvyčajností signálu ako vnútorná odmena pre robotiku

V pokročilom riadení robotov je posilnené učenie bežnou technikou, ktorá sa používa na transformáciu údajov zo senzorov na signály pre akčné členy na základe spätnej väzby z prostredia robota. Spätná väzba alebo odmena je však zvyčajne riedka, pretože sa poskytuje najmä po dokončení alebo zlyhaní úlohy, čo vedie k pomalej konvergencii. Ďalšie vnútorné odmeny založené na frekvencii návštev stavu môžu poskytnúť viac spätnej väzby. V tejto štúdii bola ako detekcia novosti pre vnútorné odmeny na vedenie procesu prehľadávania stavového priestoru využitá neurónová sieť s hlbokým učením Autoencoder. Neurónová sieť spracovávala signály z rôznych typov snímačov súčasne. Bola testovaná na simulovaných robotických agentoch v referenčnom súbore testovacích prostredí klasického riadenia OpenAI Gym (vrátane Mountain Car, Acrobot, CartPole a LunarLander), pričom sa dosiahlo efektívnejšie a presnejšie riadenie robota v troch zo štyroch úloh (len s miernym zhoršením v úlohe Lunar Lander), keď sa použili čisto vnútorné odmeny v porovnaní so štandardnými vonkajšími odmenami. Začlenením vnútorných odmien založených na autoenkodéroch by sa roboty mohli stať potenciálne spoľahlivejšími v autonómnych operáciách, ako je prieskum vesmíru alebo pod vodou, alebo počas reakcie na prírodné katastrofy. Systém by sa totiž mohol lepšie prispôsobiť meniacemu sa prostrediu alebo neočakávaným situáciám.

Celý dokument nájdete pod týmto odkazom:Sensors Kubovcik Signal novelty detection as an intrinsic reward for robotics03d_SJ

alebo https://doi.org/10.3390/s23083985