Utilizando aprendizado profundo na estimativa de profundidade monocular

Guzzo, Luiz Antonio (2023)

dissertacao_mestrado

RESUMO: A estimativa de profundidade é uma tarefa fundamental e desafiadora na visão computacional, com implicações significativas em uma variedade de aplicações, incluindo a compreensão e reconstrução de cenas. A capacidade de inferir a profundidade de uma cena a partir de uma única imagem é crucial para a compreensão do ambiente 3D e para a interação eficaz com ele. Com o surgimento das redes convolucionais, muitas abordagens foram propostas para melhorar os resultados na estimativa de profundidade. No entanto, muitas dessas técnicas desconsideram os custos computacionais, resultando em redes cada vez maiores para aprender pistas monoculares implicitamente. Neste trabalho é apresentado uma abordagem alternativa que utiliza a arquitetura UNet++, empregando uma rede MobileNetV2 como codificador. Esta abordagem, denominada MobU++, gera uma estrutura mais leve, com um número menor de parâmetros, mantendo a eficácia na estimativa de profundidade. Os experimentos realizados na base NYU Depth V2 demonstraram ser possível alcançar resultados comparáveis ou melhores do que trabalhos anteriores, mantendo uma estrutura mais simples e eficiente. Especificamente, o modelo alcançou 0.517 de RMSE utilizando apenas 4.995 Milhões de Parâmetros. Além disso, foi utilizada uma outra estratégia que envolve a utilização de uma arquitetura UNet gerada por um algoritmo genético já treinado, denomiada GAUnet. Nessa proposta, o gene final produzido pelo algoritmo genético em um modelo treinável foi adaptado para a tarefa de estimativa de profundidade monocular. A intenção é verificar se a capacidade dos algoritmos genéticos de explorar eficientemente o espaço de design da arquitetura da rede e de descobrir arquiteturas que pode contribuir para o aumento da eficiência e a eficácia da estimativa de profundidade. Embora essa arquitetura tenha conseguido reduzir a quantidade de parâmetros em 12,61x (396 mil) em comparação com a MobU++, ela apresentou um RMSE de 0.725, indicando que um menor número de parâmetros não necessariamente leva a um melhor desempenho na estimativa de profundidade.

ABSTRACT: Depth estimation is a fundamental and challenging task in computer vision, with significant implications in a variety of applications, including scene understanding and reconstruction. The ability to infer the depth of a scene from a single image is crucial for understanding the 3D environment and effectively interacting with it. With the advent of convolutional networks, many approaches have been proposed to improve the results in depth estimation. However, many of these techniques disregard computational costs, resulting in increasingly larger networks to implicitly learn monocular cues. In this work, we present an alternative approach that employs the UNet++ architecture, using a MobileNetV2 network as the encoder. This approach, termed MobU++, generates a lighter structure with fewer parameters while maintaining effectiveness in depth estimation. Experiments conducted on the NYU Depth V2 database demonstrated the feasibility of achieving comparable or better results than previous works while maintaining a simpler and more efficient structure. Specifically, the model achieved an RMSE of 0.517 using only 4.995 million parameters. Additionally, we explored another strategy involving the use of a UNet architecture generated by a pre-trained genetic algorithm, termed GaUnet. In this proposal, the final gene produced by the genetic algorithm in a trainable model was adapted for the task of monocular depth estimation. The intent is to examine whether the capability of genetic algorithms to efficiently explore the design space of network architecture and discover architectures can contribute to increased efficiency and effectiveness in depth estimation. Although this architecture was able to reduce the number of parameters by 12.61x (396K) compared to MobU++, it exhibited an RMSE of 0.725, indicating that fewer parameters do not necessarily lead to better performance in depth estimation.