Innovations in depth from focus/defocus pave the way to more capable computer vision systems

ENG: Researchers at the Nara Institute of Science and Technology (NAIST) in Japan have innovated a novel approach for determining the distance between objects and a camera within computer vision applications. This method, named deep depth from focal stack (DDFS), merges conventional depth estimation techniques with advanced machine learning algorithms. This innovation plays a crucial role in enhancing the accuracy of depth estimation, which is critical for augmented reality, autonomous driving, robotics, 3D image reconstruction, virtual reality, and surveillance systems.

Credit: NAIST

Depth estimation in computer vision, particularly through focus and defocus methods, relies on analyzing the blurriness within a series of images taken at varying focal lengths. Historically, approaches to this challenge have been categorized into model-based and learning-based methods. Model-based approaches utilize mathematical and optical models to estimate depth based on the level of sharpness or blurriness in images but are less effective on surfaces lacking distinct textures. Conversely, learning-based approaches are adept at handling images of texture-less surfaces but are limited by their dependence on the camera settings present in the training data.

The DDFS methodology, developed by Yasuhiro Mukaigawa and Yuki Fujimura, introduces a cost volume framework. This framework evaluates a range of depth hypotheses for each pixel, factoring in the input focal stack, camera settings, and a lens defocus model. This strategic approach facilitates depth estimation across varying camera settings, bridging the gap between model-based and learning-based methods. Furthermore, it incorporates an encoder-decoder network that refines the depth estimation process, enabling more precise and adaptable depth determination. The empirical results from their research demonstrate that DDFS surpasses previous methods in accuracy across multiple image datasets, proving its efficacy with limited input images and marking a significant advancement in depth estimation technology.

RO: Cercetătorii de la Institutul de Știință și Tehnologie Nara din Japonia au creat o abordare nouă pentru determinarea distanței dintre obiecte și o cameră în cadrul aplicațiilor de viziune computerizată. Această metodă, denumită deep depth from focal stack (DDFS), îmbină tehnicile convenționale de estimare a adâncimii cu algoritmi avansați de învățare automată. Această inovație joacă un rol crucial în îmbunătățirea estimării adâncimii, care este esențială pentru realitatea augmentată, conducerea autonomă, robotică, reconstrucția imaginilor 3D, realitatea virtuală și sistemele de supraveghere.

Estimarea adâncimii în viziunea computerizată, în special prin metode de focalizare și defocalizare, se bazează pe analiza neclarității într-o serie de imagini realizate la diferite distanțe focale. Din punct de vedere istoric, abordările acestei provocări au fost clasificate în metode bazate pe modele și metode bazate pe învățare. Abordările bazate pe modele utilizează modele matematice și optice pentru a estima adâncimea pe baza nivelului de claritate sau de neclaritate din imagini, dar sunt mai puțin eficiente în cazul suprafețelor care nu au texturi distincte. Abordările bazate pe învățare se pricep la manipularea imaginilor de suprafețe fără textură, dar sunt limitate de setările camerei prezente în datele de antrenare.

Metodologia DDFS, dezvoltată de Yasuhiro Mukaigawa și Yuki Fujimura, introduce un cadru de volum al costurilor. Acest cadru evaluează o serie de ipoteze de adâncime pentru fiecare pixel, luând în considerare stiva focală de intrare, setările camerei și un model de defocalizare a obiectivului. Această abordare strategică facilitează estimarea adâncimii în funcție de diferite setări ale camerei, făcând legătura între metodele bazate pe model și cele bazate pe învățare. În plus, aceasta încorporează o rețea de codificare și decodificare care rafinează procesul de estimare a adâncimii, permițând o determinare mai precisă și mai adaptabilă a adâncimii. Rezultatele cercetării lor demonstrează că DDFS depășește metodele anterioare în ceea ce privește acuratețea în mai multe seturi de date de imagini, marcând un progres semnificativ în tehnologia de estimare a adâncimii.

Source (NAIST Japan, “Innovations in depth from focus/defocus pave the way to more capable computer vision systems”, 14.02.2024)

Paper: Fujimura, Y., Iiyama, M., Funatomi, T. and Mukaigawa, Y., 2023. Deep depth from focal stack with defocus model for camera-setting invariance. International Journal of Computer Vision, pp.1-16.