Paper: B.C.Z. Blaga and S. Nedevschi, “Weakly Supervised Semantic Segmentation Learning on UAV Video Sequences,” 2021 29th European Signal Processing Conference (EUSIPCO), 2021, pp. 731-735, doi: 10.23919/EUSIPCO54536.2021.9616055.
Available on IEEExplore and EURASIP.
Abstract: The domain of scene understanding from Unmanned Aerial Vehicles (UAVs) is of high interest for researchers in the computer vision domain, since it can be used for object detection and tracking in scenarios like deforestation monitoring, traffic surveillance, or for civil engineering tasks. However, the topic of dense video segmentation from drones has been insufficiently explored due to the lack of annotated ground truth data. We propose a solution based on a framework composed of a deep neural network for semantic segmentation and an optical flow generator, linked together by a spatio-temporal GRU component to efficiently solve the problem of weakly supervised semantic segmentation of video sequences recorded from UAVs. The novelty of our work comes from the employment of depthwise separable convolutions for the GRU component, which decrease the computation time and increase the segmentation accuracy. We test our methodology on the synthetic dataset Mid-Air, for low-altitude drone flight, and report results that prove the usefulness of the proposed system.
Rezumat: Domeniul înțelegerii scenei din vehiculele aeriene fără pilot (UAV) este de mare interes pentru cercetătorii din domeniul vederii computerizate, deoarece poate fi utilizat pentru detectarea și urmărirea obiectelor în scenarii precum monitorizarea defrișărilor, supravegherea traficului sau pentru sarcini de inginerie civilă. Cu toate acestea, subiectul segmentării video dense din drone a fost insuficient explorat din cauza lipsei de date adnotate. Propunem o soluție bazată pe un cadru compus dintr-o rețea neuronală profundă pentru segmentarea semantică și un generator de flux optic, legate între ele printr-o componentă spațio-temporală GRU pentru a rezolva eficient problema segmentării semantice slab supravegheate a secvențelor video înregistrate de drone. Noutatea lucrării noastre provine din utilizarea convoluțiilor separabile în adâncime pentru componenta GRU, care reduc timpul de calcul și cresc precizia segmentării. Testăm metodologia noastră pe setul de date sintetice Mid-Air, pentru zborul dronelor la altitudine joasă, și raportăm rezultate care dovedesc utilitatea sistemului propus.