Coleta de dados de egressos via Web Scraping do Linkedin e do Escavador

Agostinho, Jackson Willian Silva (2021)

tcc

RESUMO: Nas últimas décadas no Brasil, percebeu-se a importância de buscar melhorias na qualidade das Instituições de Ensino Superior (IES), e para isso estabeleceu-se a Lei 10.861/ 2004. O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep) é responsável por realiza a avaliação das IES. O Inep determina um instrumento avaliativo que, dentre outros segmentos, avalia a IES de acordo com as políticas de acompanhamento de egressos, tais como: coleta, gestão e estudo das informações dos ex-alunos. Em seu processo de autoavaliação institucional o Campus Serra do Instituto Federal do Espírito Santo (Ifes) realiza a pesquisa com os egressos e as informações são utilizadas visando identificar possíveis melhorias que impactam na formação de novos alunos. No entanto, observa-se que há uma baixa taxa de participação nesta pesquisa (que ocorre via formulário digital) devido a dificuldade em manter atualizados os contatos dos ex-alunos e convencê-los a participarem da pesquisa. Neste trabalho, desenvolvemos um sistema para coletar automaticamente dados curriculares de egressos do Campus Serra do Ifes disponibilizados no site Escavador e Linkedin, visando complementar as informações do acompanhamento de egressos. O sistema recebe os dados dos egressos que se deseja pesquisar na web e, após a busca automatizada, produz um banco de dados com as informações coletadas dos egressos. Esse processo é realizada através de técnicas de web scraping dos sites Escavador e Linkedin. O sistema foi testado em um estudo de caso, com uma lista de orientações concluídas até o ano de 2020 dos currículos Lattes dos docentes da área de informática do Campus Serra. A lista de egressos foi composta por 149 egressos dos cursos de Sistemas de Informação, Tecnologia em Redes e Tecnologia em Análise e Desenvolvimento de Sistemas. Foram identificados 95 egressos, representando 63,75%, sendo 40 egressos encontrados em ambos os sites, 25 apenas no Escavador e 30 só no LinkedIn. Foi possível analisar dados quanto à continuidade de estudos, inserção profissional e organizações que mais aparecem com vínculos empregatícios. Com o resultado obtido, conclui-se que é possível usar um sistema de web scraping junto com o sistema já existente, realizada por servidores do Campus Serra do Ifes, de forma a agregar os benefícios de cada abordagem.

ABSTRACT: In recent decades in Brazil, the quality of Higher Education Institutions (HEIs) are recognized by Law 10,861/2004 was established. The National Institute of Studies and Anísio Teixeira Educational Researches (Inep) are responsible for the evaluation. Inep determines an evaluation instrument that, among other segments, evaluates the HEI according to the policies for monitoring graduates, such as collection, management, and study of information from former students. In its institutional process, the Serra Campus of the Federal Institute of Espírito Santo (Ifes) applies surveys with graduates. The information identifies possible improvements that impact the formation of new students. However, there is a low rate of participation of students in this research (which takes place via a digital form). Keeping the contacts of former students and convincing them to participate in the survey is difficult. In this work, we developed an automatic system to collect curricular data from alumni of the Serra do Ifes Campus, available on the Escavador and Linkedin website, to complement the information on the monitoring of alumni. The system receives the names of the graduates. And then starts a web scraping system and produces a database with the information collected from sites Escavador and Linkedin. The case study is a list of monographs completed by 2020 from the Lattes curriculum of the teachers in the computer science area of the Campus Serra. The list of graduates is formed by 149 names from the Information Systems, Network Technology, and Systems Analysis and Development Technology courses. 95 alumni were identified, representing 63.75% of the total, with 40 alumni on both sites, 25 only on Escavador, and 30 only on LinkedIn. It was possible to analyze data regarding the continuity of studies, professional insertion, and organizations that appear most with employment relationships. With the result obtained, it is concluded that it is possible to use a web scraping system together with the existing system, carried out by servers at the Serra do Ifes Campus, to add the benefits of each approach.