Publikácia: Detekcia nezvyčajností signálu ako vnútorná odmena pre robotiku

Publikácia: Detekcia nezvyčajností signálu ako vnútorná odmena pre robotiku

V pokročilom riadení robotov je posilnené učenie bežnou technikou, ktorá sa používa na transformáciu údajov zo senzorov na signály pre akčné členy na základe spätnej väzby z prostredia robota. Spätná väzba alebo odmena je však zvyčajne riedka, pretože sa poskytuje najmä po dokončení alebo zlyhaní úlohy, čo vedie k pomalej konvergencii. Ďalšie vnútorné odmeny založené na frekvencii návštev stavu môžu poskytnúť viac spätnej väzby. V tejto štúdii bola ako detekcia novosti pre vnútorné odmeny na vedenie procesu prehľadávania stavového priestoru využitá neurónová sieť s hlbokým učením Autoencoder. Neurónová sieť spracovávala signály z rôznych typov snímačov súčasne. Bola testovaná na simulovaných robotických agentoch v referenčnom súbore testovacích prostredí klasického riadenia OpenAI Gym (vrátane Mountain Car, Acrobot, CartPole a LunarLander), pričom sa dosiahlo efektívnejšie a presnejšie riadenie robota v troch zo štyroch úloh (len s miernym zhoršením v úlohe Lunar Lander), keď sa použili čisto vnútorné odmeny v porovnaní so štandardnými vonkajšími odmenami. Začlenením vnútorných odmien založených na autoenkodéroch by sa roboty mohli stať potenciálne spoľahlivejšími v autonómnych operáciách, ako je prieskum vesmíru alebo pod vodou, alebo počas reakcie na prírodné katastrofy. Systém by sa totiž mohol lepšie prispôsobiť meniacemu sa prostrediu alebo neočakávaným situáciám.

Celý dokument nájdete pod týmto odkazom:Sensors Kubovcik Signal novelty detection as an intrinsic reward for robotics03d_SJ

alebo https://doi.org/10.3390/s23083985

 

 

 

 

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *