ENG: Floods cause massive destruction every year, making quick and accurate damage assessment critical for recovery efforts. Visual Question Answering (VQA) systems, which analyze images and answer related questions, can help streamline this process. However, many current systems struggle with tasks like counting flooded buildings, which is important for planning responses. To address this, researchers from the Technical University of Cluj-Napoca developed a new VQA system that combines advanced text and image analysis tools to improve accuracy in post-flood assessments.
This innovative system integrates DistilBERT for processing language and Vision Mamba for analyzing images. These tools are connected by an attention-based fusion mechanism that helps the model understand how the image and question are related. A Capsule Network classifier is then used to generate final answers, particularly for tasks like counting objects or identifying flood-affected areas. This approach results in a more accurate and reliable tool compared to previous methods.
The research team’s work has shown promising results, with accuracy improvements of nearly 3% for both simple and complex counting tasks on the FloodNet dataset. While originally designed for flood scenarios, the technology could also be adapted for other disasters like wildfires or earthquakes, as well as for urban planning and environmental monitoring. By making damage assessment faster and more precise, this system provides valuable support to emergency responders and decision-makers.
RO: Inundațiile provoacă distrugeri masive în fiecare an, ceea ce face ca evaluarea rapidă și precisă a pagubelor să fie esențială pentru eforturile de recuperare. Sistemele de Răspuns Vizual la Întrebări (Visual Question Answering – VQA), care analizează imagini și răspund la întrebări legate de acestea, pot ajuta la simplificarea acestui proces. Cu toate acestea, multe dintre sistemele actuale întâmpină dificultăți în ceea ce privește sarcini precum numărarea clădirilor inundate, un aspect important pentru planificarea intervențiilor. Pentru a rezolva această problemă, cercetătorii de la Universitatea Tehnică din Cluj-Napoca au dezvoltat un nou sistem VQA care combină instrumente avansate de analiză a textului și a imaginilor pentru a îmbunătăți acuratețea evaluărilor post-inundație.
Acest sistem inovator integrează DistilBERT pentru prelucrarea limbajului și Vision Mamba pentru analizarea imaginilor. Aceste instrumente sunt conectate printr-un mecanism de fuziune bazat pe atenție, care ajută modelul să înțeleagă relația dintre imagine și întrebare. Un clasificator Capsule Network este utilizat pentru a genera răspunsuri finale, în special pentru sarcini precum numărarea obiectelor sau identificarea zonelor afectate de inundații. Această abordare are ca rezultat un instrument mai precis și mai fiabil în comparație cu metodele anterioare.
Munca echipei de cercetare a dat rezultate promițătoare, cu îmbunătățiri ale preciziei de aproape 3% atât pentru sarcinile de numărare simple, cât și pentru cele complexe pe setul de date FloodNet. Deși concepută inițial pentru scenarii de inundații, tehnologia ar putea fi adaptată și pentru alte dezastre, cum ar fi incendiile de vegetație sau cutremurele, precum și pentru planificarea urbană și monitorizarea mediului. Prin accelerarea și precizia evaluării pagubelor, acest sistem oferă un sprijin valoros intervențiilor în situații de urgență și factorilor de decizie.
Paper: Bianca-Cerasela-Zelia Blaga and Sergiu Nedevschi, “Improving VQA Counting Accuracy for Post-Flood Damage Assessment,” 2024 IEEE 20th International Conference on Intelligent Computer Communication and Processing (ICCP), Cluj-Napoca, Romania, 2024, pp. 1-8, doi: 10.1109/ICCP63557.2024.10793007.


