Desenvolvimento de sistema WEB para busca de publicações na base de dados da Polícia Militar do Espírito Santo

Jacobsem, Vinícius Louzada (2021)

tcc

RESUMO: Semanalmente a Polícia Militar do Espírito Santo realiza publicações de atos administrativos e outros assuntos de interesse interno à instituição. Essas publicações em formato PDF são arquivadas e frequentemente precisam ser consultadas pelos militares. Porém, os documentos são disponibilizados no portal da corporação sem que exista uma ferramenta institucional para realizar pesquisa e recuperação de informação. O objetivo deste trabalho foi desenvolver um sistema web que indexe as publicações e permita realizar buscas full-text sobre todos os documentos. Para desenvolvimento do projeto e realização de teste, foi utilizada parte da base real de publicações da instituição, totalizando 3,25 GB em 1.593 arquivos. A segmentação e extração de texto dos arquivos foi realizada através da biblioteca Apache PDFBox e a indexação por meio do ElasticSearch. O sistema foi estruturado em front-end, desenvolvido em Angular, e back-end, desenvolvido Spring Boot. Os resultados foram analisados comparando a busca realizada no sistema e em programas leitores de PDF. As duas formas foram eficazes e encontraram os mesmos documentos, porém, a execução realizada no sistema foi mais eficiente. Dessa forma, os resultados e as técnicas utilizadas demonstraram o cumprimento do objetivo deste trabalho, contudo, há espaço para melhorias e novas pesquisas. Além disso, com alguns ajustes no sistema, é possível sua utilização em outros órgãos ou empresas que possuam base de documentos carente de ferramentas web para pesquisa full-text.

ABSTRACT: Every week, the Espírito Santo Military Police publishes administrative acts and other matters of internal interest to the institution. These publications in PDF format are archived and often needed to be consulted by the military. However, the documents are made available on the corporation’s portal without an institutional tool to carry out research and information retrieval. The objective of this work was to develop a web system that indexes publications and allows for full-text searches on all documents. Part of the institution’s actual publications base was used for project development and testing, totalling 3.25 GB in 1,593 files. The segmentation and text extraction of the files were performed through the Apache PDFBox library and the indexing through ElasticSearch. The system was structured on front-end, developed in Angular, and back-end, developed in Spring Boot. The results were analyzed comparing the search performed in the system and PDF reader programs. Both ways were effective and found the same documents, however, the execution performed in the system was more efficient. Thus, the results and techniques used demonstrated fulfillment of the objective of this job, however, there is room for improvement and further research. Furthermore, with some adjustments to the system, it is possible to use it in other agencies or companies that have a document base that lacks web tools for full-text research.


Collections: