Codelattes : scriptlattes na versão Python 3

Paula, Marcos Antonio Carneiro de (2024)

tcc

Plataforma Lattes é a maior base de dados da ciência brasileira, integrando currículos, grupos de pesquisa e instituições. O scriptLattes é uma ferramenta de código aberto desen- volvida para extrair e compilar automaticamente os currículos Lattes. No entanto, a versão original da ferramenta foi descontinuada, sendo baseada em Python 2. Este trabalho teve como objetivo atualizar o scriptLattes para Python 3, gerenciar dependências com pip e adicionar novas funcionalidades. Para a atualização, foram utilizadas várias ferramentas, incluindo 2to3 para converter o código de Python 2 para Python 3, pip para gerenciar dependências, Black para formatação automática do código, Pylint para análise estática do código e Beautiful Soup 4 para parsing de documentos HTML e XML, substituindo a ferramenta Tidy. Além das atualizações técnicas, novas funcionalidades foram incorpora- das, como a captura de seções adicionais dos currículos Lattes e a contabilização das novas classificações Qualis A3 e A4. Dois estudos de caso foram realizados. O Estudo de Caso 1 comparou o scriptLattes e o codeLattes utilizando o exemplo “teste-02”, demonstrando que o codeLattes corrigiu erros presentes na versão original. O Estudo de Caso 2 gerou relatórios para o Programa de Pós-graduação em Computação Aplicada (PPComp) do IFES, avaliando o período de 2021 a 2023. Os resultados dos estudos de caso mostraram que a atualização foi bem-sucedida, com o codeLattes apresentando resultados mais consis- tentes e abrangentes do que a versão anterior. As novas funcionalidades permitiram uma análise mais detalhada das produções e colaborações dos pesquisadores. Em conclusão, a migração para Python 3 e a inclusão de novas funcionalidades tornaram o codeLattes uma ferramenta mais robusta e eficiente para a extração e visualização de dados da Plataforma Lattes, facilitando a análise e gestão das informações acadêmicas e científicas.

The Lattes Platform is the largest database of Brazilian science, integrating resumes, research groups, and institutions. scriptLattes is an open-source tool developed to auto- matically extract and compile Lattes resumes. However, the original version of the tool was discontinued, as it was based on Python 2. This work aimed to update scriptLattes to Python 3, manage dependencies with pip, and add new functionalities. For the update, several tools were used, including 2to3 to convert the code from Python 2 to Python 3, pip to manage dependencies, Black for automatic code formatting, Pylint for static code analysis, and Beautiful Soup 4 for parsing HTML and XML documents, replacing the Tidy tool. In addition to technical updates, new functionalities were incorporated, such as capturing additional sections from the Lattes resumes and accounting for the new Qualis classifications A3 and A4. Two case studies were conducted. Case Study 1 compared scriptLattes and codeLattes using the “teste-02” example, demonstrating that codeLattes corrected errors present in the original version. Case Study 2 generated reports for the Applied Computing Master’s Program (PPComp) at IFES, evaluating the period from 2021 to 2023. The case study results showed that the update was successful, with codeLattes providing more consistent and comprehensive results than the previous version. The new functionalities allowed for a more detailed analysis of the researchers’ productions and collaborations. In conclusion, the migration to Python 3 and the inclusion of new functionalities have made codeLattes a more robust and efficient tool for extracting and visualizing data from the Lattes Platform, facilitating the analysis and management of academic and scientific information.