ENG: A new study by researchers at MIT reveals a critical weakness in vision-language models: their inability to process negation. This flaw can lead to serious consequences, especially in high-stakes environments like healthcare. For example, a radiologist searching for similar X-rays using a model might receive misleading results if the model ignores key phrases such as “no enlarged heart.” Without recognizing negation, the model may retrieve cases that include both tissue swelling and an enlarged heart, potentially pointing to incorrect diagnoses and treatment paths.
To investigate this issue, the researchers designed two benchmark tasks to test how well vision-language models handle negation. In the first task, they used large language models to re-caption images by including objects that are absent, then asked the vision-language models to retrieve the correct images. In the second task, they created multiple-choice questions where answer options differed only by the presence or absence of objects in the captions. Across both benchmarks, the models performed poorly, often no better than random chance. This failure was attributed to what the researchers call affirmation bias, a tendency of these models to disregard any form of negation in the text.
To address this problem, the researchers generated a new dataset by augmenting image captions with natural-sounding negation phrases using large language models. They then retrained vision-language models with this data. The updated models showed improved performance in both image retrieval and multiple-choice tasks, with gains of around 10 percent and 30 percent respectively. Although the researchers note this approach is a form of data augmentation and not a complete solution, it demonstrates that the problem is tractable. They emphasize the need for thorough evaluation before deploying these models in sensitive applications and encourage further work to strengthen their understanding of negation.
RO: Un nou studiu realizat de cercetători de la MIT evidențiază o slăbiciune critică a modelelor vizual-lingvistice: incapacitatea acestora de a înțelege negația. Această deficiență poate avea consecințe grave, în special în domenii sensibile precum cel medical. De exemplu, un radiolog care caută radiografii similare folosind un astfel de model poate primi rezultate eronate dacă modelul ignoră expresii esențiale precum “fără inimă mărită”. Fără să recunoască negația, modelul poate returna cazuri care includ atât umflarea țesuturilor, cât și o inimă mărită, ceea ce ar putea conduce la diagnostice și tratamente incorecte.
Pentru a investiga această problemă, cercetătorii au conceput două sarcini de testare a capacității modelelor vizual-lingvistice de a înțelege negația. În prima sarcină, au utilizat modele lingvistice de mari dimensiuni pentru a reeticheta imaginile, adăugând mențiuni despre obiecte care lipsesc, apoi au testat modelele vizual-lingvistice cerându-le să identifice corect imaginile. În a doua sarcină, au creat întrebări cu variante multiple de răspuns, unde opțiunile diferă doar prin prezența sau absența unor obiecte în descrieri. În ambele cazuri, modelele au avut performanțe slabe, adesea mai mici decât șansa aleatorie. Această deficiență a fost atribuită unui fenomen numit de cercetători bias de afirmare, adică tendința modelelor de a ignora orice formă de negație.
Pentru a remedia problema, cercetătorii au generat un nou set de date, adăugând fraze de negație formulate natural în descrierile imaginilor, folosind modele lingvistice avansate. Au antrenat din nou modelele vizual-lingvistice folosind acest set de date. Modelele actualizate au arătat îmbunătățiri semnificative atât în sarcina de regăsire a imaginilor, cât și în cea de alegere multiplă, cu progrese de aproximativ 10% și respectiv 30%. Deși cercetătorii subliniază că această abordare reprezintă doar o formă de augmentare a datelor și nu o soluție completă, ea arată că problema poate fi rezolvată. Aceștia insistă asupra nevoii de evaluare riguroasă înainte de utilizarea acestor modele în aplicații critice și încurajează continuarea cercetărilor pentru a întări înțelegerea negației de către aceste sisteme.
Source (MIT News, “Study shows vision-language models can’t handle queries with negation words”, 14.05.2025)
Paper: Alhamoud, K., Alshammari, S., Tian, Y., Li, G., Torr, P., Kim, Y. and Ghassemi, M., 2025. Vision-language models do not understand negation. arXiv preprint arXiv:2501.09425.

