ENG: KAIST (President Kwang Hyung Lee) announced on the 25th January that a research team led by Professor Jemin Hwangbo of the Department of Mechanical Engineering developed a quadrupedal robot control technology that can walk robustly with agility even in deformable terrain such as sandy beach.
Reinforcement learning is an AI learning method used to create a machine that collects data on the results of various actions in an arbitrary situation and utilizes that set of data to perform a task. Because the amount of data required for reinforcement learning is so vast, a method of collecting data through simulations that approximates physical phenomena in the real environment is widely used. In particular, learning-based controllers in the field of walking robots have been applied to real environments after learning through data collected in simulations to successfully perform walking controls in various terrains. However, since the performance of the learning-based controller rapidly decreases when the actual environment has any discrepancy from the learned simulation environment, it is important to implement an environment similar to the real one in the data collection stage. Therefore, in order to create a learning-based controller that can maintain balance in a deforming terrain, the simulator must provide a similar contact experience.
The research team defined a contact model that predicted the force generated upon contact from the motion dynamics of a walking body based on a ground reaction force model that considered the additional mass effect of granular media defined in previous studies. Furthermore, by calculating the force generated from one or several contacts at each time step, the deforming terrain was efficiently simulated. The research team also introduced an artificial neural network structure that implicitly predicts ground characteristics by using a recurrent neural network that analyzes time-series data from the robot’s sensors.
The learned controller was mounted on the robot ‘RaiBo’, which was built hands-on by the research team to show high-speed walking of up to 3.03 m/s on a sandy beach where the robot’s feet were completely submerged in the sand. Even when applied to harder grounds, such as grassy fields, and a running track, it was able to run stably by adapting to the characteristics of the ground without any additional programming or revision to the controlling algorithm. In addition, it rotated with stability at 1.54 rad/s (approximately 90° per second) on an air mattress and demonstrated its quick adaptability even in the situation in which the terrain suddenly turned soft.
RO: KAIST (reprezentat de președintele Kwang Hyung Lee) a anunțat pe 25 ianuarie că o echipă de cercetare condusă de profesorul Jemin Hwangbo de la Departamentul de Inginerie Mecanică a dezvoltat o tehnologie de control al unui robot patruped care poate merge robust și cu agilitate chiar și pe un teren deformabil, cum ar fi o plajă de nisip.
Învățarea prin întărire este o metodă de învățare a inteligenței artificiale utilizată pentru a crea un sistem care colectează date privind rezultatele diferitelor acțiuni într-o situație arbitrară și utilizează acest set de date pentru a îndeplini o sarcină. Deoarece cantitatea de date necesare pentru învățarea prin consolidare este foarte mare, se utilizează pe scară largă o metodă de colectare a datelor prin simulări care aproximează fenomenele fizice din mediul real. În special, controlerele bazate pe învățare în domeniul roboților care merg pe jos au fost aplicate în medii reale după ce au învățat prin intermediul datelor colectate în simulări pentru a efectua cu succes sarcini de mers pe diferite terenuri. Cu toate acestea, deoarece performanța controlerului scade rapid atunci când mediul real prezintă discrepanțe față de mediul de simulare învățat, este important să se implementeze un mediu similar celui real în etapa de colectare a datelor. Prin urmare, pentru a crea un controler bazat pe învățare care să poată menține echilibrul pe un teren care se deformează, simulatorul trebuie să ofere o experiență de contact similară.
Echipa de cercetare a definit un model de contact care a prezis forța generată la contact din dinamica mișcării unui corp care merge, pe baza unui model de forță de reacție la sol care a luat în considerare efectul suplimentar de masă al mediului granular definit în studiile anterioare. În plus, prin calcularea forței generate de unul sau mai multe contacte la fiecare pas de timp, terenul în deformare a fost simulat în mod eficient. Echipa de cercetare a introdus, de asemenea, o structură de rețea neuronală artificială care prezice implicit caracteristicile terenului prin utilizarea unei rețele neuronale recurente care analizează datele din seriile temporale provenite de la senzorii robotului.
Controlerul învățat a fost montat pe robotul “RaiBo”, care a fost construit de echipa de cercetare pentru a demonstra mersul de mare viteză de până la 3,03 m/s pe o plajă de nisip, unde picioarele robotului au fost complet scufundate în nisip. Chiar și atunci când a fost aplicat pe terenuri mai dure, cum ar fi câmpuri cu iarbă și o pistă de alergare, acesta a fost capabil să meargă în mod stabil prin adaptarea la caracteristicile terenului fără programare suplimentară sau revizuire a algoritmului de control. În plus, acesta s-a rotit cu stabilitate la 1,54 rad/s (aproximativ 90° pe secundă) pe o saltea de aer și a demonstrat adaptabilitate rapidă chiar și în situația în care terenul a devenit brusc moale.
Source (KAIST, “KAIST’s Robo-Dog “RaiBo” runs through the sandy beach”, 26.01.2023)
Paper: Choi, S., Ji, G., Park, J., Kim, H., Mun, J., Lee, J.H. and Hwangbo, J., 2023. Learning quadrupedal locomotion on deformable terrain. Science Robotics, 8(74), p.eade2256.