O uso de ferramentas de processamento de linguagem natural para descrições textuais de imagens
tcc
O processamento de linguagem natural (PLN) tem testemunhado avanços significativos nos últimos anos. Em particular, a criação dos Generative Pre-Trained Transformer (GPT) que é uma família de modelos de linguagem desenvolvida pela OpenAI com capacidade de gerar texto coerente e semântico, bem como entender e responder a perguntas de forma contextualmente relevante. Este trabalho apresenta dois experimentos feitos com o uso dos GPTs para criar descrições textuais de imagens. Ao utilizar o GPT-4 em conjunto com algoritmos que realizam o pré-processamento das imagens, é gerada uma saída textual e solicitado ao GPT-4 que crie descrições de imagens com base no texto fornecido. O desenvolvimento dos experimentos envolveu a implementação de classes em Python para o processamento de imagens e coleta de legendas geradas para análise posterior. Os resultados dos experimentos analisados de forma qualitativa, demonstraram a eficácia da abordagem na melhoria da qualidade das descrições de imagens. Este estudo contribui para o avanço da acessibilidade em imagens digitais e destaca o potencial da integração de tecnologias de PLN com sistemas de reconhecimento de imagens para capacidades descritivas aprimoradas.
Natural Language Processing (NLP) has witnessed significant advancements in recent years. Particularly, the development of the Generative Pre-Trained Transformer (GPT), which is a family of language models developed by OpenAI capable of generating coherent and semantically meaningful text, as well as understanding and responding to questions in a contextually relevant manner. This work presents two experiments conducted using GPTs to generate textual descriptions of images. By employing GPT-4 in conjunction with algorithms that performing image preprocessing, the textual output is generated and GPT- 4 is prompted to create image descriptions based on the provided text. The development of the experiments involved the implementation of Python classes for image processing and collecting generated captions for further analysis. The results of the experiments, analyzed qualitatively, demonstrate the effectiveness of the approach in improving the quality of image descriptions. This study contributes to advancing accessibility in digital images and highlights the potential of integrating NLP technologies with image recognition systems for enhanced descriptive capabilities.
Redes Sociais