Aprendizado de representações vetoriais de imagens com redes neurais artificiais para recuperação de produtos do varejo
dissertacao_mestrado
A recuperação de produtos a partir de imagens tem múltiplas aplicações, desde o fornecimento de informações e recomendações para clientes em supermercados até a geração automática de faturas em lojas inteligentes. No entanto, esta tarefa apresenta desafios importantes, como o grande número de produtos, a escassez de imagens dos itens, diferenças entre as imagens dos produtos utilizadas durante o treinamento e teste dos modelos e as constantes mudanças no portfólio devido à adição ou remoção de produtos. Trabalhos recentes têm alcançado bons resultados na tarefa de recuperação de imagens com o uso de redes neurais profundas para produzir representações vetoriais de imagens que posteriormente são utilizadas para treinar outros algoritmos de aprendizado de máquina. Contudo, os modelos tendem a sofrer com overfitting quando existem poucas imagens de treinamento para cada classe e, além disso, em alguns casos, os modelos podem precisar ser retreinados sempre que produtos são adicionados ou removidos da base de dados. Assim, este trabalho investiga maneiras de gerar representações vetoriais de imagens usando redes neurais profundas de forma que essas representações possam ser usadas para recuperação de produtos mesmo diante dos desafios supracitados. Foram utilizadas as bases de dados de produtos de mercado Grocery Products, contendo 3287 imagens com qualidade de estúdio para o treinamento e 948 imagens de teste com menor qualidade, e Grocery Store, que possui 81 imagens icônicas de produtos e 2485 imagens de teste em ambiente real. Análises experimentais avaliaram o efeito que a arquitetura de rede, as técnicas de aumento de dados e as funções objetivo usadas durante o treinamento têm na qualidade da representação. A melhor configuração foi obtida com o ajuste fino da arquitetura Densenet-201 na tarefa de classificar produtos usando os métodos Randaugment e Augmix para aumentos de dados, e com o Hierarchical Triplet Loss como uma função de regularização. As representações construídas usando este modelo, levaram a uma acurácia Top-1 de 86,81% e acurácia Top-5 de 93,35% no conjunto de dados Grocery Products e acurácia Top-1 de 21,77% e Top-5 de 49,22% na base de dados Grocery Store.
Product retrieval from images has multiple applications ranging from providing information and recommendations for supermarket customers to automatic invoice generation in smart stores. However, this task presents important challenges such as large number of products, the scarcity of images of items, differences between real and iconic images of the products, and the constant changes in the portfolio due to the addition or removal of products. Models tend to suffer from overfitting when there are too few training images for each class, and in some cases, traditional models need to be retrained whenever products are added or removed from the database. Hence, this work investigates ways of generating vector representations of images using deep neural networks such that these representations can be used for product retrieval even in the face of these challenges. Two datasets were used, Grocery Products containing 3287 studio-quality images for training and 948 lower-quality images for testing and the Grocery Store dataset, with 81 iconic product images and 2485 test images. Experimental analysis evaluated the effect of network architecture, data augmentation techniques and objective functions used during training on representation quality. The best configuration was obtained after fine-tuning the Densenet-201 architecture for classifying products using a mixture of Randaugment and Augmix data augmentations, with Hierarchical Triplet Loss as a regularization function. The representations built using this model led to a Top-1 accuracy of 86.81% and Top-5 accuracy of 93.35% in the dataset Grocery Products and a Top-1 accuracy of 21.77% and Top-5 of 49.22% in the Grocery Store database.
Redes Sociais