Categorização automática de currículos de profissionais de TIC utilizando redes neurais profundas
dissertacao_mestrado
RESUMO: O setor de Tecnologia da Informação e Comunicação (TIC) desempenha um papel crucial na economia, mas enfrenta desafios no recrutamento devido à escassez de profissionais qualificados. O processo de recrutamento é frequentemente demorado e oneroso, demandando recursos e custos. Diante deste cenário, este trabalho visa desenvolver uma abordagem para categorização de currículos de profissionais de TIC, combinando duas técnicas: categorização dos currículos com algoritmos de Aprendizado de Máquina (AM) e extração de características dos currículos, como habilidades técnicas e interpessoais. Foram realizados experimentos com uma base de dados contendo 27.405 currículos, abrangendo nove categorias de profissionais de TIC. As abordagens investigadas incluem classificação de rótulo único e multirrótulo, utilizando algoritmos tradicionais de AM, redes neurais convolucionais, do inglês Convolutional Neural Network (CNN), e Long Short Term Memory (LSTM), além de modelos de linguagem pré-treinados como o Bidirectional Encoder Representations from Transformers (BERT). Os resultados da classificação de rótulo único demonstraram que a arquitetura usando uma rede CNN com uma LSTM bidirecional (BiLSTM) obteve o melhor desempenho. Entre os algoritmos tradicionais, os baseados em árvores de decisão, especialmente com boosting, e a regressão logística também se destacaram pelo bom desempenho. No cenário de classificação multirrótulo, os algoritmos mostraram desempenho inferior, especialmente os tradicionais, devido à complexidade de atribuir múltiplas categorias a um único currículo. A aplicação de técnicas de transformação de problema mostrou limitações ao não capturar precisamente a interdependência entre as classes, enquanto redes neurais profundas se mostraram mais eficazes. Além disso, foram realizados experimentos para a extração de características dos currículos usando abordagens de Reconhecimento de Entidades Nomeadas (REN), como o algoritmo Conditional Random Fields (CRF), BiLSTM e modelos neurais pré-treinados baseados no BERT. O objetivo foi identificar informações relevantes como certificações, cargos, experiência e habilidades. Para isso, foram utilizadas as bases de dados do SkillSpan e Green. Os resultados experimentais demonstraram que classes com maior frequência e padrões mais consistentes apresentaram melhores métricas, enquanto classes com baixa representatividade e contexto mais complexo tiveram desempenho inferior.
ABSTRACT: The Information and Communication Technology (ICT) sector plays a crucial role in the economy, but recruitment challenges exist due to a shortage of qualified professionals. The recruitment process is often time-consuming and costly, demanding resources and costs. Given this scenario, this work aims to develop an approach for categorizing resumes of ICT professionals, combining two techniques: categorization of resumes with Machine Learning (ML) algorithms and extraction of features from resumes, such as technical and interpersonal skills. Experiments were carried out with a database containing 27,405 resumes covering nine categories of ICT professionals. The investigated approaches include single-label and multi-label classification using traditional ML algorithms, Convolutional Neural Networks (CNN), and Long-Short-Term Memory (LSTM), as well as pre-trained language models such as Bidirectional Encoder Representations from Transformers (BERT). The results of single-label classification demonstrated that the architecture using a CNN network with a bidirectional LSTM (BiLSTM) achieved the best performance. Among the traditional algorithms, those based on decision trees, especially with boosting and logistic regression, also stood out for their good performance. In the multi-label classification scenario, the algorithms, especially the traditional ones, showed lower performance due to the complexity of assigning multiple categories to a single resume. The application of problem transformation techniques showed limitations because they did not accurately capture the interdependence between classes, while deep neural networks proved to be more effective. In addition, experiments were carried out to extract features from resumes using Named Entity Recognition (NER) approaches, such as the Conditional Random Fields (CRF) algorithm, BiLSTM, and pre-trained neural models based on BERT. The goal was to identify relevant information such as certifications, positions, experience, and skills. For this, the SkillSpan and Green databases were used. The experimental results demonstrated that classes with higher frequency and more consistent patterns presented better metrics, while classes with low representation and more complex contexts performed lower.
Redes Sociais