ENG: A team led by the Institut de Ciències del Mar in Barcelona in collaboration with the Monterey Bay Aquarium Research Institute in Califòrnia, the Universitat Politècnica de Catalunya and the Universitat de Girona, proves for the first time that reinforcement learning -i.e., a neural network that learns the best action to perform at each moment based on a series of rewards- allows autonomous vehicles and underwater robots to locate and carefully track marine objects and animals.
Currently, underwater robotics is emerging as a key tool for improving knowledge of the oceans in the face of the many difficulties in exploring them, with vehicles capable of descending to depths of up to 4,000 meters. In addition, the in-situ data they provide help to complement other data, such as that obtained from satellites. This technology makes it possible to study small-scale phenomena, such as CO2 capture by marine organisms, which helps to regulate climate change.
Specifically, this new work reveals that reinforcement learning, widely used in the field of control and robotics, as well as in the development of tools related to natural language processing such as ChatGPT, allows underwater robots to learn what actions to perform at any given time to achieve a specific goal. These action policies match, or even improve in certain circumstances, traditional methods based on analytical development.
To carry out this work, researchers used range of acoustic techniques, which allow estimating the position of an object considering distance measurements taken at different points. However, this fact makes the accuracy in locating the object highly dependent on the place where the acoustic range measurements are taken. And this is where the application of artificial intelligence and, specifically, reinforcement learning, allows the identification of the best points and, therefore, the optimal trajectory to be performed by the robot, becomes important.
Neural networks were trained, in part, using the computer cluster at the Barcelona Supercomputing Center, where the most powerful supercomputer in Spain and one of the most powerful in Europe are located. Once trained, the algorithms were tested on different autonomous vehicles, including the AUV Sparus II developed by VICOROB, in a series of experimental missions developed in the port of Sant Feliu de Guíxols, in the Baix Empordà, and in Monterey Bay (California).
RO: O echipă condusă de Institutul de Ştiinţe Marine din Barcelona, în colaborare cu Institutul de cercetare Monterey Bay Aquarium din California, Universitatea Politehnică din Catalunya și Universitatea din Girona, demonstrează pentru prima dată că învățarea prin întărire – o rețea neuronală care învață cea mai bună acțiune de efectuat în fiecare moment pe baza unei serii de recompense – care permite vehiculelor autonome și roboților subacvatici să localizeze și să urmărească cu atenție obiectele și animalele marine.
În prezent, robotica subacvatică se profilează ca un instrument esențial pentru îmbunătățirea cunoștințelor despre oceane, în fața numeroaselor dificultăți în explorarea acestora, vehiculele fiind capabile să coboare la adâncimi de până la 4.000 de metri. În plus, datele in situ pe care le furnizează contribuie la completarea altor date, cum ar fi cele obținute de la sateliți. Această tehnologie face posibilă studierea fenomenelor la scară mică, cum ar fi captarea CO2 de către organismele marine, care ajută la reglarea schimbărilor climatice.
Mai exact, această nouă lucrare dezvăluie faptul că învățarea prin întărire, utilizată pe scară largă în domeniul controlului și al roboticii, precum și în dezvoltarea de instrumente legate de prelucrarea limbajului natural, cum ar fi ChatGPT, permite roboților subacvatici să învețe ce acțiuni să efectueze în orice moment pentru a atinge un anumit obiectiv. Aceste politici de acțiune se potrivesc sau chiar îmbunătățesc, în anumite circumstanțe, metodele tradiționale bazate pe dezvoltarea analitică.
Pentru a realiza această lucrare, cercetătorii au folosit o serie de tehnici acustice, care permit estimarea poziției unui obiect luând în considerare măsurătorile de distanță efectuate în diferite puncte. Cu toate acestea, acest fapt face ca acuratețea localizării obiectului să depindă în mare măsură de locul în care sunt efectuate măsurătorile de distanță acustică. Și aici devine importantă aplicarea inteligenței artificiale și, în special, a învățării prin întărire, care permite identificarea celor mai bune puncte și, prin urmare, a traiectoriei optime pe care trebuie să o efectueze robotul.
Rețelele neuronale au fost antrenate, în parte, folosind clusterul de calculatoare de la Centrul de Supercalculatoare din Barcelona, unde se află cel mai puternic supercomputer din Spania și unul dintre cele mai puternice din Europa. După ce au fost antrenați, algoritmii au fost testați pe diferite vehicule autonome, inclusiv pe AUV-ul Sparus II dezvoltat de VICOROB, într-o serie de misiuni experimentale dezvoltate în portul Sant Feliu de Guíxols, în Baix Empordà, și în Golful Monterey (California).
Source (Institut de Ciències del Mar, “Reinforcement learning allows underwater robots to locate and track objects underwater”, 27.07.2023)
Paper: Masmitja, I., Martin, M., O’Reilly, T., Kieft, B., Palomeras, N., Navarro, J. and Katija, K., 2023. Dynamic robotic tracking of underwater targets using reinforcement learning. Science Robotics, 8(80), p.eade7811.