Enhancing Semantic Segmentation of Remote Sensing Images with Transformer-Based Attention Mechanisms

ENG: In a recent paper published in the IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing that can be read here, Zelia Blaga and Sergiu Nedevschi introduced a novel architecture entitled SwinFAN (Swin-based Focal Axial attention Network), a transformer-based framework designed to advance semantic segmentation of remote sensing images. This model leverages the power of Swin transformers as an encoder combined with novel components like the Guided Focal-Axial (GFA) attention module and the Attention-based Feature Refinement Head (AFRH). The GFA module enhances the model’s ability to process both local and global contextual information, making it particularly effective in complex urban environments captured by drones.

The architecture was rigorously tested on several high-resolution datasets, including UAVid, Potsdam, Vaihingen, and LoveDA, where it demonstrated superior performance compared to state-of-the-art models. SwinFAN achieved significant improvements in mean Intersection over Union (mIoU), particularly excelling in segmenting small, intricate objects like cars and pedestrians in urban settings. These results underscore the architecture’s ability to deliver precise segmentation across a variety of imaging conditions, from oblique to nadir views.

SwinFAN’s innovative use of attention mechanisms and the transformer backbone marks a significant shift from traditional CNN approaches, offering enhanced accuracy in high-resolution semantic segmentation tasks. With its demonstrated success across multiple benchmarks, the model presents a promising solution for applications in urban planning, environmental monitoring, and land cover mapping, addressing both local and global feature extraction challenges.

RO: Într-un articol recent publicat în IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing care poate fi citit aici, Zelia Blaga și Sergiu Nedevschi au prezentat o nouă arhitectură denumită SwinFAN (Swin-based Focal Axial attention Network), o rețea neuronală bazată pe transformeri, concepută pentru a avansa segmentarea semantică a imaginilor de teledetecție. Acest model valorifică puterea transformerilor Swin ca encoder, combinat cu componente inovatoare precum modulul Guided Focal-Axial (GFA) attention și Attention-based Feature Refinement Head (AFRH). Modulul GFA îmbunătățește capacitatea modelului de a procesa atât informații contextuale locale, cât și globale, făcându-l deosebit de eficient în medii urbane complexe capturate de drone.

Arhitectura a fost testată riguros pe mai multe seturi de date de înaltă rezoluție, inclusiv UAVid, Potsdam, Vaihingen și LoveDA, unde a demonstrat performanțe superioare comparativ cu modelele de ultimă generație. SwinFAN a obținut îmbunătățiri semnificative în metrici precum IoU (Intersection over Union), excelând în mod special în segmentarea obiectelor mici și complexe, cum ar fi mașinile și pietonii în medii urbane. Aceste rezultate subliniază capacitatea arhitecturii de a oferi segmentări precise într-o varietate de condiții de imagistică, de la unghiuri oblice la vedere nadir.

Utilizarea inovatoare a mecanismelor de atenție și a backbone-ului bazat pe transformer marchează o schimbare semnificativă față de abordările tradiționale CNN, oferind o precizie sporită în sarcinile de segmentare semantică de înaltă rezoluție. Cu succesul demonstrat pe multiple benchmark-uri, modelul prezintă o soluție promițătoare pentru aplicații în planificarea urbană, monitorizarea mediului și cartografierea utilizării terenului, abordând atât provocările de extragere a caracteristicilor locale, cât și globale.

Paper: Bianca-Cerasela-Zelia Blaga and Sergiu Nedevschi, “Semantic Segmentation of Remote Sensing Images with Transformer-Based U-Net and Guided Focal-Axial Attention,” in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, doi: 10.1109/JSTARS.2024.3470316.

Enhancing Semantic Segmentation of Remote Sensing Images with Transformer-Based Attention Mechanisms

Like this:

Related

Share this:

Like this:

Related

Discover more from Tug Of Web