INSTITUTO FEDERAL DO ESPÍRITO SANTO 
PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA 
 
 
 
 
LEANDRO RODRIGUES RAMOS 
 
 
 
 
 
 
 
 
 
DETECÇÃO DE OBSTRUÇÃO EM MÁQUINAS DE LINGOTAMENTO CONTÍNUO 
PELA ANÁLISE DE SÉRIES TEMPORAIS MULTIVARIADAS 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Serra 
2019 
LEANDRO RODRIGUES RAMOS 
 
 
 
 
 
 
 
 
 
 
 
DETECÇÃO DE OBSTRUÇÃO EM MÁQUINAS DE LINGOTAMENTO CONTÍNUO 
PELA ANÁLISE DE SÉRIES TEMPORAIS MULTIVARIADAS 
 
 
Dissertação apresentada ao Programa de Pós-
graduação em Computação Aplicada do Instituto 
Federal do Espírito Santo, Campus Serra, como 
re- quisito parcial para a obtenção do título de 
Mestre em Computação Aplicada - Inteligência 
Artificial. 
 
Orientador: Prof. Dr. Jefferson O. Andrade. 
Orientador: Prof. Dr. Francisco de Assis Boldt. 
 
 
 
 
 
 
 
 
 
 
 
Serra 
2019 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Dados Internacionais de Catalogação na Publicação (CIP) 
 
   
 R175d Ramos, Leandro Rodrigues 
 2019         Detecção de obstrução em máquinas de lingotamento contínuo 
 pela análise de séries temporais multivariadas / Leandro Rodrigues 
Ramos. - 2019. 
 
        76 f.; il.; 30 cm 
 
         
         Orientador: Prof. Dr. Jefferson Oliveira Andrade. 
         Orientador: Prof. Dr. Francisco de Assis Boldt. 
         Monografia (graduação) - Instituto Federal do Espírito Santo, 
 Coordenadoria de Informática, Curso de Bacharelado em Sistemas 
 de Informação, 2019. 
          
         1.  Aço - Indústria. 2. Aprendizado do computador. 3. Processos 
de fabricação. 4. Usinas siderúrgicas. 5. Fundição contínua. I. 
 Andrade, Jefferson Oliveira. II. Boldt, Francisco de Assis. III. Instituto 
Federal do Espírito Santo. IV. Título. 
                                                                             CDD 669 
 
Bibliotecária Rogeria Gomes Belchior - CRB6/ES 417 
 
 
 
 
 
 
 
 
 
RESUMO 
 
Obstruções das válvulas submersas no processo de lingotamento contínuo 
aumentam a frequência de interrupções na operação, seja para troca de válvulas, de 
distribuidores ou até mesmo provocando uma parada completa da máquina. Estas 
transições extras elevam o custo operacional, reduzem a produtividade da planta e 
podem provocar uma variedade de problemas de qualidade. A ausência de 
conjuntos de dados rotulados para as obstruções tem restringido a aplicação de 
métodos de aprendizado de máquina para predição desta anomalia no processo. 
Este trabalho buscou desenvolver técnicas semiautomáticas de rotulação de 
conjuntos de dados de referência. Para identificação do problema foram extraídas 
características de séries temporais multivariadas que poderiam caracterizar o 
fenômeno. Tais características foram utilizadas em sequências de clusterizações, 
combinadas em diferentes espaços dimensionais, fazendo uso do algoritmo 
DBSCAN (Density Based Spatial Clustering of Applications with Noise). Os clusters 
gerados foram usados como sementes para um processo semi-supervisionado de 
propagação de rótulos. Este processo gerou uma base de dados que foi validada por 
especialistas e 100% dos dados rotulados como obstruções foram considerados 
corretamente rotulados. No contexto de aprendizado de máquina, a inexistência de 
rótulos nos dados implica no uso de técnicas não supervisionadas, com poucos 
exemplos de rótulos os métodos semi-supervisionados são aplicáveis, já com o 
conjunto de dados tendo os rótulos devidamente validados permite-se o uso de 
algoritmos preditores supervisionados (classificadores ou regressores). Sendo 
assim, foi possível em sequência desenvolver um modelo classificador multiclasse 
que pudesse identificar situações de operação normal, obstruções e outras 
anomalias em tempo de lingotamento. 
 
Palavras-chave: Lingotamento contínuo. Obstrução. Clusterização. Aprendizado de 
máquina. 
 
ABSTRACT 
 
Clogging of submerged entry nozzles (SEN) in the continuous casting process 
increase the frequency of operational interruptions, whether for changing valves, 
tundish or even causing a complete machine shutdown.These extra transictions drive 
up the cost, reduce productivity and can cause a variety of quality issues.The 
absence of data sets labeled for clogging has restricted the application of machine 
learning methods for predicting this anomaly. This work sought to develop 
semiautomatic techniques for labeling reference data sets. To identify the problem 
were extracted features of multivariate time series that could identify the 
phenomenon. These features were used in clustering sequences, in different 
dimensional spaces, using the Density Based Spatial Clustering of Applications with 
Noise Algorithm (DBSCAN). The generated clusters were used as seeds for a semi-
supervised label propagation process. This process generated a database that was 
validated by specialists and 100% of the data labeled as obstructions were 
considered correctly labeled. In machine learning the lack of labels in the data implies 
the use of unsupervised techniques, with just a few examples of labels the semi-
supervised methods are applicable, on the other hand, with the data set having the 
labels properly validated, the use of supervised algorithms (classifiers or regressors) 
became allowed. Therefore, it was possible to develop a multiclass classifier model 
that could identify situations of normal operation, clogging and other process 
anomalies during the casting time. 
 
Keywords: Continuos casting. Clogging. Clustering. Machine learning. 
 
 
 
 
LISTA DE FIGURAS 
 
Figura 1 –    Obstrução (clog) em válvula submersa. ................................................ 11 
Figura 2 –    Pontos geradores de obstrução. ........................................................... 12 
Figura 3 –    Obstrução típicas em válvulas com 2 furos de saída. ........................... 13 
Figura 4 –    Extração de características em séries temporais. ................................. 15 
Figura 5 –    Resultados do classificador multiclasse em intervalo de tempo do 
processo. .............................................................................................. 17 
Figura 6 –    Pipeline de criação dos datasets e os modelos de clusterização e 
classificação. ........................................................................................ 18 
Figura 7  –   Componentes de Séries Temporais. ..................................................... 21 
Figura 8 –    Remoção de não estacionariedade em uma série temporal. ................ 22 
Figura 9 –    Série temporal univariada...................................................................... 23 
Figura 10 – Série temporal multivariada. ................................................................... 23 
Figura 11 – Clusterização de séries temporais. ........................................................ 25 
Figura 12 – Exemplo de clusterização de subsequências em séries temporais. ....... 27 
Figura 13 – Identificação de clusters e detecção de anomalias. ............................... 29 
Figura 14 – Grafo 1: Exemplo de propagação de rótulos. ......................................... 32 
Figura 15 – Obtenção de novos rótulos: Yt+1 ← T × Yt. ........................................... 33 
Figura 16 – Grafo 2: Exemplo de propagação de rótulos. ......................................... 33 
Figura 17 – Ciclo do Active Learning - Pool-based Sampling.................................... 35 
Figura 18 – Séries temporais da velocidade de lingotamento e posição do    
‘tampão”. .............................................................................................. 40 
Figura 19 – Visão esquemática do sistema distribuidor-molde. ................................ 40 
Figura 20 – Sinais contínuos do processo................................................................. 42 
Figura 21 – Discretização de séries temporais. ......................................................... 43 
Figura 22 – Geração de identificador para as janelas de tempo (código python). ..... 43 
Figura 23 – Unicidade de identificador demonstrada em 3 janelas de 5 minutos 
(código python). .................................................................................... 44 
Figura 24 – Evolução da obstrução. .......................................................................... 45 
Figura 25 – Janela de obstrução e escolha de características das séries................. 45 
Figura 26 – Exemplos das 59 características finais extraídas em sinais do veio 3. .. 47 
Figura 27 – Pipeline para identificação de rótulos. .................................................... 47 
Figura 28 – Exemplo de janela sobre os sinais do processo. .................................... 49 
Figura 29 – Extração de características nos sinais em janela deslizante. ................. 50 
Figura 30 – Clusterização inicial (Outliers x Operação normal). ................................ 54 
Figura 31 – Elementos pertencentes aos clusters de operação normal. ................... 55 
Figura 32 – Clusterização inicial (Outliers x Operação normal). ................................ 55 
Figura 33 – Amostras de outliers separadas com a distância de Mahalanobis. ........ 56 
Figura 34 – Clusterização dos outliers. ..................................................................... 57 
Figura 35 – Propagação de rótulos: Sem rótulos(-1), Norma(0), Anomalias 
conhecidas(3), Obstruções(7). ............................................................. 60 
Figura 36 – Active Learning - Distribuição final das classes...................................... 61 
Figura 37 – Seletor de classes - queries enviadas ao oráculo. ................................. 62 
Figura 38 – Identificação de Obstruções. .................................................................. 63 
Figura 39 – Identificação de “anomalias conhecidas”. .............................................. 63 
Figura 40 – Protótipo para visualização das obstruções sequenciadas no tempo. ... 65 
Figura 41 – Complexidade de classificação nas regiões de "fronteira". .................... 68 
Figura 42 – Rede CNN para extração de características combinadas com um 
preditor LSTM....................................................................................... 69 
 
 
 
 
 
SUMÁRIO 
1 INTRODUÇÃO ................................................................................................. 9 
1.1 CONTEXTUALIZAÇÃO .................................................................................... 9 
1.2 PROBLEMA .................................................................................................... 12 
1.3 PROPOSTA .................................................................................................... 15 
1.4 OBJETIVOS .................................................................................................... 17 
1.4.1 Objetivo Geral ............................................................................................... 17 
1.4.2 Objetivos Específicos................................................................................... 18 
1.5 ORGANIZAÇÃO DO TRABALHO ................................................................... 19 
2 REFERENCIAL  TEÓRICO ............................................................................ 20 
2.1 SÉRIES TEMPORAIS..................................................................................... 20 
2.2 EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES TEMPORAIS ................. 24 
2.3 IDENTIFICAÇÃO DE ANOMALIAS POR MÉTODO NÃO     
SUPERVISIONADO........................................................................................ 26 
2.4 DENSITY-BASED SPATIAL CLUSTERING OF APPLICATIONS WITH  
NOISE (DBSCAN) .......................................................................................... 28 
2.5 PROPAGAÇÃO DE RÓTULOS ...................................................................... 29 
2.6 MÉTODO SEMI-SUPERVISIONADO DE APRENDIZADO (ACTIVE 
LEARNING) .................................................................................................... 34 
3 MATERIAIS E MÉTODOS .............................................................................. 39 
3.1 BASE DE DADOS........................................................................................... 39 
3.2 FUNDAMENTOS PARA EXTRAÇÃO DE CARACTERÍSTICAS EM      
SÉRIES ........................................................................................................... 41 
3.3 MODELAGEM ................................................................................................ 47 
4 EXPERIMENTOS, RESULTADOS E DISCUSSÃO ....................................... 53 
4.1 CLUSTERIZAÇÃO .......................................................................................... 53 
4.2 PROPAGAÇÃO DE RÓTULOS E ACTIVE LEARNING .................................. 57 
4.3 APRENDIZADO SUPERVISIONADO PARA DETECÇÃO DE      
OBSTRUÇÃO ................................................................................................. 64 
4.4 IDENTIFICAÇÃO DE OBSTRUÇÕES POR ANÁLISE DE SÉRIES 
TEMPORAIS ................................................................................................... 67 
4.5 ANÁLISE DOS RESULTADOS ....................................................................... 69 
5 CONSIDERAÇÕES FINAIS E CONCLUSÃO ................................................ 71 
5.1 TRABALHOS FUTUROS ................................................................................ 72 
           REFERÊNCIAS .............................................................................................. 73 
 
9 
1 INTRODUÇÃO 
1.1 CONTEXTUALIZAÇÃO 
Lingotamento contínuo é o processo pelo qual o metal fundido é solidificado em um 
produto semi-acabado, no caso deste trabalho em formato de placa (PEIXOTO, 
2016). O aço líquido é transferido do distribuidor para o molde por meio de um canal 
que é conhecido como válvula submersa. O aço é moldado e solidificado de maneira 
progressiva da superfície para o núcleo do veio (cada saída do lingotador). Em 
função de alguns fatores tais como a temperatura do aço líquido, temperatura do 
canal refratário, abertura e aquecimento da válvula, durante este vazamento ocorre, 
ocasionalmente, uma solidificação rápida e prematura, obstruindo o fluxo de aço do 
distribuidor para o molde. Este fenômeno é denominado obstrução de válvulas 
submersas e se caracteriza como um dos problemas principais no lingotamento 
contínuo de aço. 
Primeiramente, obstruções aumentam a frequência de interrupções na operação, 
seja para troca de válvulas, de distribuidores ou até mesmo provocando uma parada 
completa da máquina. A injeção de gás argônio é uma técnica metalúrgica para 
formar uma cortina de gás que separa o fluxo do aço líquido da superfície refratária e 
que pode ser utilizada na prevenção e redução da obstrução. Todas estas ações 
elevam o custo operacional, reduzem a produtividade da planta e podem provocar 
uma variedade de problemas de qualidade. O fluxo de aço líquido é controlado por 
um dispositivo de válvula gaveta, baseado no princípio de deslocamento paralelo de 
uma placa refratária, dotada de um orifício, entre duas outras, alinhando a abertura 
da placa móvel com os orifícios das placas fixas. A obstrução muda os padrões de 
fluxo e as características dos jatos de aço que saem das válvulas, que podem 
interromper o fluxo no molde, levando a defeitos de superfície nos produtos de aço e 
até mesmo rompimentos (breakouts). As obstruções uma vez desalojadas também 
perturbam o fluxo, ficando presas no aço ou alterando a composição do mesmo, 
sendo que em ambos os casos originam defeitos. Problemas de qualidade também 
surgem dos transientes do nível do molde que ocorrem quando o dispositivo de 
controle de fluxo compensa o entupimento (THOMAS; BAI, 2001). 
10 
A Figura 1 caracteriza a obstrução (clog) em válvula submersa (SEN do inglês 
Submerged Entry Nozzle), através do acúmulo de material no fluxo de aço (liquid 
steel) entre distribuidor (tundish) e o molde (cooper mold). Rackers e Thomas (1995) 
detalha como consequências da obstrução: 
 Redução de produtividade. Para compensar a obstrução, o dispositivo de 
controle de fluxo (por exemplo, comportas deslizantes acionadas por 
controladores PID) deve ser ainda mais aberto. Se o entupimento se tornar 
suficientemente severo, o dispositivo de controle de fluxo não será mais 
capaz de compensar. Com isto, uma diminuição na velocidade de 
lingotamento se faz necessária ou até mesmo a substituição da válvula. 
Esses eventos reduzem o rendimento da máquina e, portanto, reduzem a 
produtividade. 
 Elevação dos custos. Dependendo da planta, algumas porções das válvulas 
obstruídas podem ser substituídas independentemente durante o 
lingotamento. Outras porções entupidas podem apenas ser substituídas pela 
mudança do distribuidor. Portanto, a obstrução resulta em custos adicionais 
para a recondicionamento do distribuidor, bem como para a substituição das 
válvulas. 
 Redução da qualidade. Partículas não metálicas, provenientes do acúmulo 
nas obstruções, podem ser desalojadas e resultar em impurezas inaceitáveis 
no produto, especialmente em aplicações de aços especiais. A restrição no 
fluxo de passagem também pode provocar padrões de fluxos indesejáveis no 
molde, provocando problemas de qualidade (por exemplo, ingestão de 
material fluxante no molde ou afinamento de pele). 
 
 
 
 
 
11 
Figura 1 – Obstrução (clog) em válvula submersa. 
 
Fonte: Rackers e Thomas (1995). 
 
O material de obstrução mais comumente observado é o óxido de alumínio (Al3O2), 
também conhecido como alumina. A obstrução por este tipo de material pode ser 
causada por aglomeração, precipitação e aspiração de ar através da válvula 
(CRAMB; RASTOGI; MADDELENA, 1999). 
A Figura 2 ilustra diferentes fontes que podem causar o problema de obstrução em 
válvulas submersas, dentre elas: 
 Ponto 1: arraste de escória da panela de aço que carrega o distribuidor. Com 
a diminuição do nível de aço, a escória na superfície da panela pode ser 
sugada pela válvula, o que conduz inclusão junto com banho. 
 Pontos 2, 3, 5: arraste de ar atmosférico através do sistema cone-válvula 
longa, abertura na tampa e sistema distribuidor-molde respectivamente. 
 Ponto 4: desgaste do refratário do distribuidor. 
 Ponto 6: variação do nível de aço do molde. 
 Ponto 7: abertura de panela sem imersão de válvula longa. 
 
 
 
12 
Figura 2 – Pontos geradores de obstrução. 
Fonte: Adaptado de Cramb, Rastogi e Maddelena (1999). 
 
Outros fatores como composição química (elementos exógenos) e a baixa 
temperatura do aço líquido, resultando em menor capacidade de flotar inclusões, 
também são agravantes para geração de obstrução. 
 
1.2 PROBLEMA 
O lingotamento contínuo tem se consolidado como a forma mais importante para a 
produção de aço atualmente. Devido aos componentes físicos, mecânicos e 
químicos envolvidos na produção, o lingotamento contínuo é um processo bastante 
complexo, levando os métodos convencionais de monitoramento e controle ao seu 
limite (CEMERNEK et al., 2021). A obstrução das válvulas contribui fortemente para 
os problemas de qualidade observados durante o processo de lingotamento 
contínuo. A presença de obstruções nos Bicos de Entrada Submersos (SEN) pode 
alterar significativamente os padrões de fluxo no molde e, portanto, impactar a 
qualidade do produto (ABOUELAZAYEM et al., 2020). O fenômeno de obstrução das 
válvulas é difícil de ser caracterizado. Isto se dá pelo elevado número de fatores 
químicos e de processo que afetam a ocorrência de precipitação de materiais na 
13 
superfície interna das válvulas, bem como pela impossibilidade de se instalar 
sistemas de sondas e sensores, a fim de observar de perto o fenômeno em si 
(VANNUCCI; COLLA, 2011; ABOUELAZAYEM et al., 2020). A Figura 3 apresenta 
observações industriais dos pontos típicos de entupimento nas paredes das válvulas 
submersas. 
 
Figura 3 – Obstrução típicas em válvulas com 2 furos de saída. 
 
Nota: Corte central b) saída do furo c) parede interna. 
Fonte: Zhang, Wang e Zuo (2008). 
 
Neste cenário de produção de aço, temos processos altamente complexos, onde 
nem todas as variáveis de entrada e suas correlações são conhecidas e as 
condições ambientais podem mudar com o tempo. Por outro lado, decisões de 
processo muitas vezes são tomadas pelos operadores, baseadas em seus 
conhecimentos e experiência (OMETTO et al., 2019). 
A obstrução bem como outros eventos de qualidade que são considerados críticos 
não possuem acurácia em seu registro, podendo-se desclassificar produtos que são 
consideradas incompatíveis com diversas aplicações de aço. O registro do problema 
baseado nas percepções e reações do operador pode levar a desclassificações 
inadequadas e perde-se precisão no que diz respeito à área afetada no produto. 
Uma identificação com maior precisão do tempo de ocorrência do problema e 
respectiva região afetada durante o lingotamento poderia servir de subsídio para os 
modelos de otimização de corte das placas, bem como para o processo decisório em 
relação à desclassificação do produto que está sendo produzido. 
14 
Usinas siderúrgicas modernas estão gerando grande volume de dados devido ao 
aumento no nível de sensoriamento nas plantas industriais, associado a novos tipos 
de fontes de dados não estruturados (vídeos e áudios), bem como bases de dados 
temporais dedicadas a historiar milhares de sinais de processo. Incluir modelos de 
aprendizado de máquina nos sistemas de automação e controle, oriundos da análise 
destes dados, vem se tornando primordial na estratégia das organizações visando 
otimizar seus processos produtivos. 
A modelagem matemática deste problema vem sendo desenvolvida por diferentes 
abordagens. Yuan et al. (2006) buscaram uma modelagem fenomenológica, 
podendo ser aplicada de forma online no processo, fazendo uso de equações 
hidrodinâmicas. Ometto et al. (2019) utilizando um conjunto de dados históricos 
expressivo (4 anos com aproximadamente 21.000 corridas de aço), propõem um 
classificador baseado em árvores de decisão e Gradient Boosting (NATEKIN; 
KNOLL, 2013) para aproximar a relação não-linear entre a lista dos preditores e a 
variável alvo (obstrução). Vannucci et al. (2010) e Vannucci e Colla (2011) em seus 
trabalhos fazem uma combinação de técnicas clássicas envolvendo Perceptron de 
múltiplas camadas (MLP do inglês Multilayer Perceptron), e árvores de decisão, 
dentre outras, objetivando detectar o problema. Para os modelos de classificação 
citados, a acurácia na detecção oscilou entre 74% e 80%. Variáveis estáticas do 
processo foram utilizadas como, por exemplo, composição química do banho, e 
tendo a percepção do problema somente a nível da corrida de lingotamento. 
Em uma corrida de lingotamento contínuo, o aço presente no distribuidor origina 
diversas placas (produto lingotado), sendo que a obstrução pode ocorrer somente 
em parte deste processo. A identificação do problema no nível de corrida pode ser 
relevante para as equipes de operação pois sinaliza se a mesma está propensa a ter 
obstrução ou não. Porém, para a metalurgia é relevante identificar com maior 
precisão (no tempo) em que trecho da placa (ou placas) lingotada ocorre o evento de 
obstrução, evitando assim a desclassificação de produtos de maneira inadequada. 
Para o intervalo de análise deste trabalho pode-se observar a incidência do 
fenômeno de obstrução em aproximadamente 10% dos trechos das placas 
lingotadas (sendo 4,94% no 1º veio e 14,85% no 2º veio da máquina de 
lingotamento). 
15 
1.3 PROPOSTA 
A hipótese deste trabalho assume que é possível detectar com acuracidade os 
eventos de obstrução no processo de lingotamento contínuo, através da análise de 
sinais e controles dinâmicos da linha, proveniente de sensores e indexados no 
tempo (séries temporais multivariadas). 
A proposta deste trabalho está baseada em um modelo de análise descrito por Sala 
et al. (2018). Os sinais do processo produtivo são historiados em bases de dados 
temporais e podem ser representados por séries temporais multivariadas. Busca-se 
avaliar estas séries, utilizando técnicas para extração e seleção de suas 
características (CHRIST et al., 2018) em subsequências no tempo. A Figura 4 
exemplifica algumas destas características que serão extraídas de dados brutos das 
séries como média (mean), mediana (median), mínimos e máximos, picos (number 
peaks) dentre outras. 
Pelo fato de originalmente não termos uma base de dados rotulada, o pipeline de 
análise proposto por Sala et al. (2018) foi adaptado conforme ilustrado na Figura 6, 
incluindo algoritmos de aprendizado de máquina não supervisionados (clusterização) 
e técnicas semiautomáticas de propagação de rótulos de forma a caracterizar as 
subsequencias no tempo como normais ou anômalas, e consequentemente 
gerando-se os rótulos (labels) em todo o conjunto de dados. 
 
Figura 4 – Extração de características em séries temporais. 
 
Fonte: Christ et al. (2018). 
16 
Vale ressaltar a importância desta etapa de rotulação, pois não existia essa 
informação na base de dados da siderúrgica alvo deste trabalho. Foram testados 
vários modelos estatísticos diferentes, visando identificar e agrupar anomalias nas 
séries temporais. Como ponto de partida, uma “semente” inicial de dados “anômalos” 
(referentes a obstrução) foi rotulada manualmente por especialistas do processo. Em 
seguida um processo de “transbordamento” de rótulos foi aplicado a este conjunto 
de obstruções bem como a um conjunto inicial de dados representando “anomalias 
conhecidas” (ex: troca de válvulas), que por sua vez foram separadas durante as 
etapas de clusterização e também devidamente identificadas pelos especialistas. 
Durante o processo de propagação, novas amostras de casos de operação normal, 
obstruções e anomalias conhecidas foram rotuladas através de uma análise visual, 
porém a necessidade de inferência humana foi minimizada pela estratégia de 
seleção de amostras do método de aprendizado ativo (semi-supervisionado) ao qual 
será detalhado neste trabalho. 
De posse da base rotulada, foi construído um modelo classificador (multiclasse) que 
recebe como entrada as características extraídas dos sinais temporais (TS model) 
em janelas de tempo de 5 minutos. A variável alvo indica probabilidades de três 
classes de operação durante este intervalo, sendo elas: Lingotamento normal 
(classe 0), anomalias conhecidas como troca de válvulas e parada de máquina 
(classe 3) ou lingotamento com obstrução (classe 7). 
A Figura 5 ilustra os resultados desta classificação em um trecho do processo onde 
foram lingotadas 6 placas. A primeira placa, identificada pelo sistema de MES da 
planta como “229855306”, estava sendo lingotada em condições normais (classe 0) 
mas aos 5 minutos finais do seu tempo de lingotamento detectou-se uma alta 
probabilidade de ocorrência do fenômeno de obstrução (classe 7). O provável evento 
de obstrução perdurou por duas placas onde na sequência foi detectada 
probabilidade de anomalia conhecida (classe 3), indicando uma operação de troca 
de válvula para desobstruir o sistema. O processo se normaliza na placa 
“229856604” onde as janelas de 5 minutos que incidiram sobre o seu período de 
lingotamento apresentaram alta probabilidade de operação normal (classe 0). 
 
17 
Figura 5 – Resultados do classificador multiclasse em intervalo de tempo do 
processo. 
 
Fonte: Elaborado pelo Autor (2021). 
 
1.4 OBJETIVOS 
A inexistência de um conjunto representativo de dados rotulados é uma realidade em 
plantas industriais, sendo inicialmente o principal impeditivo para avançar com o 
treinamento de modelos de aprendizado de máquina que possam ser aplicados ao 
problema investigado. Nesse contexto, enunciamos nas seções abaixo os objetivos 
geral e específicos do trabalho realizado, onde busca-se construir as condições 
necessárias para que um mecanismo de detecção dos eventos de obstrução em 
máquinas de lingotamento contínuo fosse desenvolvido. 
 
1.4.1 Objetivo Geral 
O objetivo geral deste trabalho é avaliar o uso de técnicas de aprendizado ativo e 
análise de séries temporais multivariadas para o desenvolvimento de um modelo de 
detecção de eventos de obstrução de lingotamento contínuo. 
 
 
 
 
18 
Figura 6 – Pipeline de criação dos datasets e os modelos de clusterização e 
classificação. 
 
Fonte: Adaptado de Sala et al. (2018). 
 
1.4.2 Objetivos Específicos 
1. Desenvolver técnicas de aprendizado ativo para rotulação dos eventos de 
obstrução de lingotamento contínuo no conjunto de dados “bruto”. 
2. Gerar um conjunto de dados com os eventos de obstrução de lingotamento 
contínuo rotulados. 
3. Desenvolver modelos de predição de séries temporais multivariadas para 
detecção de eventos de obstrução de lingotamento contínuo. 
4. Avaliar resultados dos modelos e respectivos parâmetros aplicados. 
5. Desenvolvimento de aplicações preliminares para suporte aos times de 
operação e metalurgia no entendimento do fenômeno de obstrução. 
19 
1.5 ORGANIZAÇÃO DO TRABALHO 
O presente trabalho está dividido em 5 capítulos. Este Capítulo 1 traz uma 
contextualização do tema abordado, a justificativa para sua realização, os objetivos 
pretendidos e a forma de como o trabalho foi organizado. 
No Capítulo 2 são levantados os conceitos para a compreensão deste trabalho e um 
descritivo das principais técnicas a serem utilizadas. 
Em seguida, o Capítulo 3 traz os materiais e a metodologia a ser aplicada para se 
atingir o objetivo desejado, que envolve a identificação de obstruções em válvulas 
submersas. 
No Capítulo 4 descrevem-se os experimentos realizados, apresentam-se e discutem-
se os resultados obtidos. 
Por fim, no Capítulo 5, apresenta-se as considerações finais e a conclusão deste 
trabalho. 
 
 
 
 
 
 
 
 
 
 
 
20 
2 REFERENCIAL  TEÓRICO 
Neste capítulo são levantados os conceitos para a compreensão deste trabalho. 
Inicialmente, descreve-se séries temporais e métodos de extração de características 
de forma sequencial sobre as mesmas. Destacam-se os métodos de aprendizado de 
máquina não supervisionados e técnicas semi-supervisionadas para propagação de 
rótulos. O termo semi-supervisionado é utilizado neste trabalho para se referir a um 
processo interativo com etapas não supervisionadas, seguidas de etapas com 
supervisão manual. 
 
2.1 SÉRIES TEMPORAIS 
Uma série temporal é uma sequência de observações tomadas sequencialmente no 
tempo (BOX et al., 2016). Para Wooldridge (2012), uma série temporal é um 
conjunto de observações ordenadas no tempo e que apresentam dependência 
serial, isto é, dependência entre instantes de tempo. Ambas definições ressaltam 
características relevantes como a existência de uma ordenação natural no tempo 
dos dados observados, onde tipicamente estes valores não são independentes. 
A série temporal é a realização de um processo estocástico, sendo não 
determinística por natureza. Em geral a análise destas séries consiste em examinar 
um conjunto de dados ao longo do tempo de forma a estimar modelos matemáticos 
que possivelmente expliquem o comportamentos deste conjunto. A série temporal é 
afetada por quatro componentes principais e que podem ser separadas dos dados 
observados: 
 Tendência: A tendência de uma série indica o seu comportamento no longo 
prazo, isto é, se ela cresce, decresce ou permanece estável, e qual a 
velocidade destas mudanças (MORETTIN P. A.; TOLOI, 1987). 
 Ciclo: São caracterizados pelas oscilações de subida e de queda nas séries, 
de forma suave e repetida, ao longo da componente de tendência. 
 Sazonalidade: Corresponde às oscilações de subida e de queda (em torno da 
média) que se repetem sistematicamente em um determinado período. Os 
21 
movimentos sazonais são mais previsíveis que os cíclicos, que por sua vez 
tendem a ser irregulares. 
 Componentes irregulares: As variações irregulares representam 
descolamentos esporádicos das séries temporais, provocadas por eventos 
imprevisíveis e não periódicos denominados ruídos. 
A Figura 7 ilustra um exemplo de decomposição de série temporal através do 
método Seasonal-trend decomposition procedure based on Loess (STL) 
(CLEVELAND et al., 1990), dando visibilidade da tendência, sazonalidade e 
componentes irregulares (ruído). 
 
Figura 7  – Componentes de Séries Temporais. 
 
Nota: Decomposição da série (Data) em tendência (Trend), sazonalidade (Seasonal) e ruído 
(Remainder ). 
Fonte: Cleveland et al. (1990). 
22 
Outra característica marcante no estudo das séries temporal é a estacionariedade. 
Uma série temporal é estacionária quando ela se desenvolve no tempo, de modo 
aleatório, ao redor de uma média constante, refletindo assim alguma forma de 
equilíbrio estável. Muitos modelos matemáticos, aplicados à solução de problemas 
envolvendo séries temporais, levam em consideração a estacionariedade dos dados. 
Na Figura 8 temos uma série contendo uma componente de tendência linear e com 
consequente variações na média ao longo do intervalo observado. Neste caso trata-
se tipicamente de uma série não estacionária onde foi aplicada uma técnica da 
primeira diferença na série original, ∆Z(t) = Z(t) − Z(t − 1), trazendo os dados (ainda 
que aleatórios) para uma média constante. Como resultado têm-se uma nova série 
estacionária. 
 
Figura 8 – Remoção de não estacionariedade em uma série temporal. 
 
Nota: Aplicação da primeira diferença ∆Z(t) = Z(t − 1). 
Fonte: Elaborado pelo Autor (2021) 
 
Uma série temporal é denominada univariada X = [x1, x2, x3, ..., xT ] (Figura 9) 
quando representa uma sequência de medições da uma mesma variável (x) 
coletadas e indexadas em uma ordem temporal (1,2,3,...,T). 
23 
Figura 9 – Série temporal univariada. 
 
Nota: X1 = [x1, x2, x3, ..., xT ] 
Fonte: Elaborado pelo Autor (2021) 
 
Séries temporais multivariadas (Figura 10) são representadas por um conjunto D = 
       de séries temporais univariadas (N =número de sinais), onde na melhor das 
hipóteses, possuem comprimento e taxas de amostragem iguais. Parece trivial 
analisar séries temporais multivariadas como uma extrapolação de séries temporais 
univariadas, no entanto, essa abordagem negligencia uma possível correlação entre 
os sinais. 
 
Figura 10 – Série temporal multivariada. 
 
Nota: XMV = [X1, X2, X3, ..., XN ] 
Fonte: Elaborado pelo Autor (2021) 
 
Vale ressaltar que nos últimos anos um número grande de novos algoritmos para 
classificação de séries temporais vendo sendo propostos na literatura. Como 
exemplos destes métodos temos a classificação com uso de extração de 
24 
características, Dynamic Time Warping (DTW), Time Series Forest, Shapelets (YE; 
KEOGH, 2011), COTE dentre outros. Bagnall et al. (2017) trás um extenso 
comparativo de vários destes algoritmos ensemble, porém usualmente aplicados a 
séries temporais univariadas. 
 
2.2 EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES TEMPORAIS 
Para se usar séries temporais multivariadas como entrad1a  para algoritmos de 
aprendizado de máquina supervisionados ou não supervisionados, cada série 
temporal Xi precisa ser mapeada em um espaço de características bem definidas de 
dimensionalidade M, por um vetor de características      .= {xi,1, xi,2..., xi,M }. Em 
princípio, pode-se decidir mapear as séries temporais do conjunto D em uma matriz 
de N linhas e M colunas, escolhendo todos os M elementos de cada série temporal 
Xi como elementos do vetor      . No entanto, do ponto de vista de identificação de 
padrões, uma abordagem é extrair das séries temporais características em relação à 
distribuição dos dados, propriedade de correlação, estacionariedade, entropia, e 
análise de não linearidade das séries. Portanto, o vetor de características      . pode 
ser construído aplicando métodos de caracterização fj : Xi → xi,j para as respectivas 
séries temporais Xi, resultando em um vetor de características      . = (f1(Xi), f2(Xi), ..., 
fM (Xi)). Este vetor de características pode ser estendido com inclusão de atributos 
univariados   
 
              (CHRIST et al., 2018).  
Com este objetivo de extrair as características mais informativas dos dados de séries 
temporais, foram criados pacotes Python como o TSFresh (CHRIST et al., 2018) e 
Seglearn (BURNS; WHYNE, 2018). Como exemplo de características extraídas: 
1. Estatísticas: mínimo, máximo, média, desvio padrão, assimetria, curtose, 
quartis dentre outras. 
2. Básicas: comprimento, número de picos, crossings, contagem de valores. 
3. Auto-correlação, energia, entropia, simetria, coeficientes FTT, coeficientes 
CWT dentre outras. 
25 
Jones et al. (2014) trazem uma abordagem denominada STT (do inglês, Statistical 
and Smoothed Trajectory) onde uma suavização das séries é realizada aplicando 
cálculo de média através de janelas deslizantes. Em sequência características como 
média, desvio padrão, média de diferença absoluta (|z(t) − z(t +  )|)  número de 
cruzamentos na média dividido pelo tamanho da janela dentre outras são extraídas. 
A Figura 11 mostra diferentes abordagens no tratamento de séries temporais para 
uso em técnicas de aprendizado de máquina, neste caso, algoritmos de 
clusterização. 
 
Figura 11 – Clusterização de séries temporais. 
 
Nota: Três abordagens baseando em: a) dados brutos b) extração de características c) modelagem. 
Fonte: Liao (2005). 
 
Uma abordagem faz uso direto do dados brutos das séries temporais (Figura 11 (a)), 
e a principal modificação em relação à técnica convencional se dá na substituição da 
medida de distância (ou similaridade) que se aplica a dados estáticos por uma 
medida apropriada para séries temporais. Outras abordagens convertem os dados 
brutos da série em vetores de características de menor dimensão ou em um 
conjunto de parâmetros de um modelo (Figura 11 (c)). Aplica-se então um algoritmo 
26 
convencional de clusterização sobre os vetores de características extraídos ou com 
os parâmetros dos modelos. 
Para este trabalho, vetores de características das séries temporais serão extraídos e 
utilizados, associados a algoritmos de clusterização (Figura 11 (b)). 
 
2.3 IDENTIFICAÇÃO DE ANOMALIAS POR MÉTODO NÃO SUPERVISIONADO 
A clusterização é uma técnica de aprendizado não supervisionada que tem por 
objetivo identificar estruturas em um conjunto de dados não rotulados, organizando 
objetivamente os dados em grupos homogêneos, onde objetos de um grupo devem 
ser similares (ou relacionados) entre si, maximizando a dissimilaridade com objetos 
de outros grupos. De acordo com Liao (2005), os métodos de clusterização são 
divididos em categorias: 
 Métodos clássicos de particionamento: k-means, k-medoids, k-median. 
 Métodos hierárquicos: Por aglomeração (bottom-up) ou por divisão (top-
down). 
 Métodos por modelagem: Mistura de Modelos Gaussianos, HMM (do inglês, 
Hidden Markov model), SOM (do inglês, Self organizing map), ART (do inglês, 
Adaptive resonance theory neural network). 
 Métodos baseados em Densidade e Grade (GRID): DBSCAN, OPTICS, 
STING, CLIQUE. 
Chandola, Banerjee e Kumar (2009) indicam o uso de métodos de clusterização para 
detecção de anomalias. A clusterização de séries temporais é uma atividade que 
vem sendo amplamente utilizada na comunidade de mineração de dados. No 
entanto, a maioria dos algoritmos executa a clusterização em toda a série temporal. 
Por outro lado, o agrupamento de subsequências em séries vem ganhando 
popularidade, sendo capaz de identificar clusters em subsequências de interesse em 
todo o fluxo de dados (RODPONGPUN; NIENNATTRAKUL; RATANAMAHATANA, 
2012). 
27 
Define-se como uma subsequência de tamanho n em séries temporais X = [x1, x2, x3, 
..., xT ] como Xi,n = [xi, xi+1, ..., xi+n−1], onde   ≤ i ≤ T − n +    n < T. A clusterização de 
subsequências em séries é ilustrada na Figura 12, considerando uma janela de 
tamanho n = 100. 
 
Figura 12 – Exemplo de clusterização de subsequências em séries temporais. 
b 
Fonte: Zolhavarieh, Aghabozorgi e Teh (2014). 
 
A análise exploratória dos métodos de clusterização para detecção de anomalias se 
faz necessária com o objetivo de endereçar o problema de interesse. Métodos 
clássicos (particionamento baseado em distância) possuem uma série de limitações 
para muitas aplicações, dentre elas: necessitam de conhecimento do domínio do 
problema para seleção dos parâmetros de entrada (escolha de k no k-means), mal 
adaptados para clusters não convexos, problemas de desempenho em datasets 
grandes e como mais agravante a incapacidade de lidar com outliers, ruídos e 
anomalias (todos os pontos são assinalados a um cluster ). 
A abordagem utilizada neste trabalho converte os dados brutos, presentes nas 
subsequências das séries, em vetores de características. Aplica-se então um 
algoritmo de clusterização adequado sobre estes vetores no intuito de separar em 
clusters distintos as janelas de operação normal (sem falhas) e situações anômalas 
28 
(pertubações ou interrupções) no processo de lingotamento contínuo, sendo ambos 
os conjuntos relevantes para suportar na rotulação dos dados em análise. 
 
2.4 DENSITY-BASED SPATIAL CLUSTERING OF APPLICATIONS WITH 
NOISE (DBSCAN) 
DBSCAN, abreviação do termo (do inglês, Density Based Spatial Clustering of 
Application with Noise) é um método de clusterização não paramétrico baseado em 
densidade, que é efetivo na identificação de clusters com formato arbitrário e de 
diferentes tamanhos. 
Sendo também capaz de identificar e separar os ruídos dos dados e detectar 
clusters e seus arranjos dentro do espaço de dados, sem qualquer informação 
preliminar sobre os grupos. A noção de clusters e o algoritmo DBSCAN se aplicam 
para espaços Euclidianos de duas e três dimensões, como para qualquer espaço 
característico de alta dimensão (ESTER et al., 1996). 
Os autores do método salientam ainda que a abordagem trabalha com qualquer 
função de distância, de maneira que uma função apropriada pode ser escolhida para 
alguma dada aplicação. Para este trabalho usamos duas métricas de distância: a 
distância Euclidiana e a distância de Mahalanobis. 
A distância Euclidiana é definida por: 
                                                                                         (1) 
Sendo n o número de dimensões e pk e qk são, respectivamente, os k atributos 
(características) dos elementos p e q. 
A distância de Mahalanobis leva em consideração o quanto um ponto está distante 
de sua distribuição (clusters), se mostrando efetiva na caracterização dos outliers 
(noise). É definida por: 
                                                                               (2) 
29 
onde C−1 é a inversa da matriz de covariância das variáveis independentes (q). 
O DBSCAN é composto por 2 parâmetros principais: ε(eps) que representa a 
distância máxima entre dois pontos para que sejam considerados vizinhos, e minPts 
que representa o número mínimo de pontos que caracteriza uma região densa e 
consequentemente um cluster. Se definirmos um valor baixo para este parâmetro 
corre-se o risco de se ter muitos cluster bem pequenos, no entanto, um valor muito 
grande pode impedir o algoritmo de criar clusters, terminando com um dataset 
composto apenas de anomalias. 
Busca-se por regiões de alta densidade assinalando clusters às mesmas, ao passo 
que pontos em regiões menos densas não são sequer incluídos nos clusters, sendo 
rotulados como anomalias (Figura 13). Entende-se como ponto, uma representação 
do espaço n-dimensional composto pelas características extraídas das 
subsequências nas séries temporais. Os clusters podem representar classes de 
operação normais (lingotamento normal, troca de panela, outros) e os outliers 
representar anomalias (lingotamento obstruído, trocas de válvula). 
 
Figura 13 – Identificação de clusters e detecção de anomalias. 
 
Fonte: Chandola, Banerjee e Kumar (2009). 
 
2.5 PROPAGAÇÃO DE RÓTULOS 
Dados rotulados são essenciais para algoritmos de aprendizagem supervisionada. 
Entretanto, em cenários práticos os rótulos geralmente estão disponíveis em 
pequenas quantidades, enquanto os dados não rotulados podem ser abundantes. O 
30 
conceito de propagação de rótulos (label propagation) foi introduzido por Zhu e 
Ghahramani (2002) como uma proposição para geração de rótulos de uma forma 
iterativa, a partir de um conjunto de dados contendo regiões com alta densidade de 
elementos não rotulados. Dado um grafo ponderado finito G = (V, E, W ), formado por 
um conjunto de vértices V baseados em uma base de dados X  = {xi | i ∈ [ ..n]   um 
conjunto de arestas E = (V × V ) e uma função de ponderação w : E → [0, 1]. Se w(i, 
j) > 0, existe uma aresta entre xi e xj e w(i, j) corresponde a uma medida de 
similaridade entre os mesmos (WANG; TU; TSOTSOS, 2013). Considerando ρ como 
uma métrica de distância definida no grafo (usualmente euclidiana), a matriz de 
similaridade w pode ser construída conforme a Equação (3), para alguma função h 
com decaimento exponencial no infinito, e.g.  h(x) = exp (−x). Os pesos são 
controlados pelo parâmetro σ. 
                                                                                              (3) 
Uma matriz de transição probabilística para os rótulos pode ser definida através da 
normalização da matriz de similaridades conforme a Equação (4). 
                                                                                                  (4) 
Para este trabalho foi adotada uma abordagem de similaridade local (WANG; TU; 
TSOTSOS, 2013) onde um grafo KNN correspondente é construído, onde somente 
as arestas  entre  os  nós  e  seus  vizinhos  são  ponderadas,  gerando  a  matriz  w  
conforme  a Equação (5). Com isto, gera-se a matriz KNN correspondente P, 
conforme a Equação (6). 
                                                                      (5) 
                                                                                        (6) 
31 
 
O algoritmo de propagação é executado para uma base de dados X = {Xl   Xu} onde 
Xl representa os dados rotulados e Xu os dados não rotulados, Y (l) é a matriz 
resposta de rótulos. O algoritmo a cada iteração realiza um clamping, ou seja, 
reinicia os valores dos rótulos conhecidos. Um fator de clamping (α) pode ser 
utilizado para permitir flexibilização dos rótulos iniciais. Digamos que α = 0     
significa que serão retidos 80% da distribuição original dos rótulos. O Algoritmo 1, 
adaptado de (WANG; TU; TSOTSOS, 2013), demonstra este procedimento. 
Com o objetivo de ilustrar o método, considera-se o cenário apresentado pelo grafo 
na Figura 14. Temos 5 nós representando subseqûencias de séries temporais, ou 
seja, cada nó equivale a um ponto em um espaço n-dimensional, sendo n o total de 
características extraídas destes sinais. As arestas conectando dois nós carregam 
uma noção de similaridade entre os mesmos, medida por uma função de distância 
(Equação (3)) e normalizada em valores probabilísticos (entre 0 e 1) conforme 
equações (5) e (6). Isto implica que quanto mais próximos no espaço n-dimensional, 
mais provável de que os nós possuam o mesmo rótulo e consequentemente 
representem uma mesma condição no processo ao qual as séries que se referem. 
Neste exemplo temos os nós 1 e 2 previamente rotulados e pertencentes a classe 3 
(coloração azul), o nó 3 também encontra-se rotulado com a classe 1 (coloração 
verde). Já os nós 4 e 5 (coloração vermelha) compõem o conjunto de dados não 
rotulados, onde a classe 0 representa a ausência de rótulo. 
 
 
32 
Figura 14 – Grafo 1: Exemplo de propagação de rótulos. 
 
Fonte: Elaborado pelo Autor (2021) 
 
O algoritmo promove a propagação dos rótulos para todos os nós baseando-se na 
proximidade dos mesmos, assim, os dados rotulados agem como fontes que 
“empurram” seus rótulos para os vizinhos não rotulados mais próximos (ZHU; 
GHAHRAMANI, 2002 ; ZHOU et al., 2004) . 
A formulação matemática para o método implica na construção de uma matriz de 
transição probabilística (T), que para este exemplo foi representada na Figura 15. A 
probabilidade do nó 1 transitar para seu próprio rótulo é 1 (100%), visto que trata-se 
de um nó originalmente rotulado. Consequentemente o nó 1 não pode transitar para 
rótulos dos demais nós (probabilidade 0). A mesma situação se repete para os nós 2 
e 3. Entretanto é igualmente provável que o nó 4 (não rotulado) receba os rótulos 
dos nós 1 e 2, com uma probabilidade de 0,4 para cada nó e com probabilidade 0,1 
de receber os rótulos dos nós 3 e 5. A probabilidade de transição do nó 5 em alguns 
casos é zerada em função de se utilizar o kernel KNN na função de probabilidade, 
eliminando assim a possibilidade de se receber rótulos de elementos “distantes” (ou 
não vizinhos). 
33 
Em uma primeira iteração multiplica-se a matriz de transição pelo vetor (Y ) contendo 
em suas linhas as classes ou rótulos binarizados (Yl), sendo que classe zero 
representa a ausência de rótulo (Yu). Obtém-se então novos rótulos xi ∈ Xu = 
argmax(Yu[i]). 
Observa-se pelas Figura 15 e Figura 16 que o nó 4, originalmente não rotulado, 
transita para a classe 3 (com argmax=0,8%), resultando em uma nova configuração 
para o grafo. 
 
Figura 15 – Obtenção de novos rótulos: Yt+  ← T × Yt. 
 
Fonte: Elaborado pelo Autor (2021) 
 
Figura 16 – Grafo 2: Exemplo de propagação de rótulos. 
 
Fonte: Elaborado pelo Autor (2021) 
34 
Nota-se também na Figura 15 que é possível dividir a matriz de transição T em 
quatro subconjuntos: 
 Tll : Probabilidade de transitar de nós rotulados (labelled) para nós rotulados 
(labelled). 
 Tlu : Probabilidade de transitar de nós rotulados (labelled) para nós não 
rotulados (unlabelled). 
 Tul : Probabilidade de transitar de nós não rotulados (unlabelled) para nós 
rotulados (labelled). 
 Tuu : Probabilidade de transitar de nós não rotulados (unlabelled) para nós não 
rotulados (unlabelled) 
                                                                                         (7) 
Tll será sempre uma matriz identidade e Tlu será uma matriz zero, visto que tratam-
se de nós originalmente rotulados. Zhu e Ghahramani (2002) demonstram que para 
um número grande de iterações (limt  T t→∞ ) o algoritmo iterativo converge para uma 
solução representada na Equação (7). 
A utilização deste algoritmo de propagação de rótulos, associado a uma técnica de 
aprendizado semi-supervisionada, promoveu uma aceleração significativa na 
geração de uma base de dados devidamente rotulada. O método trouxe também um 
melhor balanceamento nas classes de interesse para o problema, que por sua vez, 
possibilitou o desenvolvimento de modelos preditores supervisionados a serem 
utilizados na identificação de obstruções. 
 
2.6 MÉTODO SEMI-SUPERVISIONADO DE APRENDIZADO (ACTIVE 
LEARNING) 
Os métodos de aprendizado de máquina supervisionados, que historicamente têm 
produzido os melhores resultados da literatura, extraem padrões importantes 
derivados de um conjunto de dados rotulado por especialistas humanos (CARDOSO 
35 
et al., 2017). Esses padrões são aplicados a novos dados, ainda não conhecidos 
pelo algoritmo, a fim de realizar a tarefa desejada. 
Entretanto, rotular amostras para treinamento e uso em métodos supervisionados é 
um processo custoso, seja devido à necessidade do conhecimento especializado 
bem como da natureza demorada desta atividade. Além disso, muitas vezes é 
necessário um grande número de instâncias rotuladas para obter uma taxa de erro 
aceitável nos modelos gerados. Por esta razão, usualmente nos deparamos em 
problemas nas organizações onde a variável resposta para os mesmos são 
escassas. 
Uma redução no esforço de criação de tais conjuntos de treinamento motivou a 
introdução de métodos semi-supervisionados intitulados na literatura como Active 
Learning (SETTLES, 2009). Esse tipo de técnica, ilustrada na Figura 17, seleciona e 
apresenta ao especialista (também chamado de oráculo) instâncias que devem ser 
rotuladas primeiro com base em uma estimativa do ganho de informações que 
podem trazer para o processo de aprendizagem geral. Este grupo de instâncias é 
chamado de consulta (query), pois requer respostas (leia-se rótulos) do oráculo. 
Após a rotulagem, tais instâncias são incorporadas ao conjunto de treinamento com 
a expectativa de aumentar rapidamente a eficácia do algoritmo de aprendizado 
(learner model). 
 
Figura 17 – Ciclo do Active Learning - Pool-based Sampling. 
 
Fonte: Settles (2009) 
36 
No contexto de Active Learning, existem cenários típicos ou configurações em que o 
algoritmo de aprendizado ativo (learner ) irá consultar os rótulos das instâncias. 
Como exemplos destes cenários podemos listar: 
 Membership Query Synthesis: Nesse caso, o algoritmo de aprendizado ativo 
gera uma nova instância não rotulada dentro do espaço de entrada (a partir 
de uma distribuição natural) e consulta o oráculo para rotulagem. Por 
exemplo, se os dados são imagens de dígitos, o algoritmo (learner ) criaria 
uma imagem semelhante a um dígito (pode ser girada ou com algum pedaço 
do dígito excluído) e essa imagem criada é enviada ao oráculo para rotular. 
 Stream-Based Selective Sampling: Nesta configuração amostras de dados 
não rotuladas são continuamente enviadas da fonte de dados para algoritmo 
de aprendizado ativo. O algoritmo deve decidir se pede ao oráculo para 
rotular uma instância ou rejeitá-la com base em sua informatividade. Uma 
estratégia de consulta é definida para se determinar a informatividade deste 
amostra. 
 Pool-based Sampling: Neste cenário, assume-se a existência de um pequeno 
conjunto de dados rotulados L e um grande conjunto de dados não rotulados 
U tal que |U| ≫ |L|. As instâncias são então retiradas do pool de acordo com 
alguma medida de informatividade, baseada em uma estratégia de consulta 
(Figura 17). Esta medida é aplicada a todas as instâncias no pool (ou algum 
subconjunto se o pool for muito grande) e, em seguida, as instâncias mais 
informativas são selecionadas. Este é o cenário mais comum na comunidade 
de Active Learning, sendo a abordagem escolhida para este trabalho. 
Percebe-se que todos os cenários de Active Learning requerem algum tipo de 
medida de informatividade das instâncias não rotuladas. Este processo de seleção 
de dados mais úteis e informativos pode ser feito por diferentes estratégias de 
amostragem. Uma estratégia comumente utilizada é a amostragem por incerteza, 
assim denominada devido ao uso de probabilidades em seu processo decisório. 
Fazendo uso da Tabela 1, exemplifica-se duas abordagens para esta estratégia: 
 
37 
Tabela 1 – Exemplo de amostras para uma estratégia de consulta. 
 
Fonte: Elaborado pelo Autor (2021) 
 
 Least Confidence (LC): nessa estratégia, seleciona-se a instância para a qual 
tem-se menos confiança em seu rótulo mais provável. Pela Tabela 1, o 
algoritmo está bastante confiante para o rotular a1, visto que ele acha que a 
amostra deveria ser rotulada como A com uma probabilidade de 0,9. 
Entretanto o algoritmo está menos seguro em relação a a2 visto que as 
probabilidades estão mais equilibradas entre os rótulos, onde o mais provável 
está com a probabilidade de apenas 0,5. Assim, usando o critério de menor 
confiança (Least Confidence) a amostra a2 é selecionada para o oráculo 
determinar o rótulo real. 
 Margin Sampling: Uma desvantagem na estratégia Least Confidence (LC) é 
de se levar em consideração apenas o rótulo mais provável e desconsiderar 
as outras probabilidades. A estratégia de amostragem de margem (Margin 
Sampling) busca suprir esta lacuna selecionando a instância que tem a menor 
diferença entre o primeiro e o segundo rótulo mais prováveis. Observando a1, 
a diferença entre seu primeiro e segundo rótulo mais prováveis é de 0,81 (0,9 
- 0,09) e para a2 é 0,2 (0,5 - 0,3). Portanto, o algoritmo selecionará a2 
novamente. 
Outras abordagens de consulta são detalhadas em Settles (2009) bem como na 
literatura de Active Learning, sendo exemplos: Entropia, QBC (Query by Committee), 
EER (Expected Error Reduction), MCLU (Multiclass Level Uncertainty) dentre outras. 
Devido à natureza heurística destas estratégias, é comum encontrarmos na literatura 
novas proposições, Cardoso et al. (2017) trás uma abordagem de ranking de 
amostras (Ranked batch-mode), já Zhang et al. (2016/07) propõe uma estratégia 
para tratativa para fluxos contínuos de de dados (Data Stream). 
Para este trabalho adotou-se uma estratégia inversa ao Least Confidence (LC), ou 
seja, os dados foram escolhidos baseados em uma alta confiabilidade sobre a 
38 
probabilidade dos rótulos (Mostly Confidence). Devido a natureza do processo 
industrial, o percentual de amostras que representem um estado normal de operação 
tende a ser muito maior do que os cenários anômalos. Este desbalanceamento no 
dataset motivou o uso desta estratégia ao qual evidenciamos os casos mais 
favoráveis a serem anomalias, probabilisticamente falando, e enviamos o mesmo 
para análise do especialista. Com isto, provoca-se um fortalecimento nos conjuntos 
de dados anômalos a cada iteração e consequentemente reduz-se o número de 
passos necessários para convergência do método semi-supervisionado. O algoritmo 
de aprendizado ativo utilizado pelo método foi o de propagação de rótulos, 
anteriormente descrito neste trabalho. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
39 
3 MATERIAIS E MÉTODOS 
Nesta seção será descrita a base de dados e detalhada a arquitetura geral do 
sistema, envolvendo a aplicação das técnicas de extração de características, 
clusterização e propagação de rótulos que por sua vez serviram de base para 
construção de um modelo a ser utilizado na identificação de obstruções em 
lingotamento contínuo. 
 
3.1 BASE DE DADOS 
A base de dados deste trabalho é proveniente de dados reais de uma empresa 
siderúrgica situada na região Sudeste. Os dados foram obtidos do processo 
siderúrgico de lingotamento contínuo e do refino do aço em convertedores a 
oxigênio. Para modelagem do problema foram utilizados 2 meses de dados 
contínuos coletados de 10 em 10 segundos, o que corresponde a aproximadamente 
500 corridas de lingotamento de aço. 
Neste trabalho, as variáveis independentes que compõe a base de dados são 
representadas por séries temporais relevantes na caracterização do problema, 
fundamentadas na literatura e definidas em conjunto de especialistas da unidade 
técnica de metalurgia, com ampla experiência no processo produtivo. 
Encontra-se na literatura pesquisas diversas que buscam entender o fenômeno de 
obstrução em máquinas de lingotamento contínuo, indicando variáveis 
influenciadoras na geração do evento. 
Ikäheimonen et al. (2002) indica em sua pesquisa a velocidade de lingotamento do 
veio e a posição da haste de bloqueio (“tampão”) como variáveis que podem dar a 
primeira indicação de obstrução no sistema. A Figura 18 mostra em sua parte 
superior o comportamento da velocidade do veio (casting speed) e posição do 
tampão (stopping rod) com a válvula desentupida. Em sua parte inferior temos uma 
situação com a válvula obstruída, onde a diferença no comportamento dos sinais é 
clara. Neste estudo um total de 67 variáveis foram consideradas no intuito predizer a 
ocorrência de obstruções. 
40 
Figura 18 – Séries temporais da velocidade de lingotamento e posição do ‘tampão”. 
 
Fonte: Ikäheimonen et al. (2002). 
 
No estudo realizado por Rout et al. (2013) é proposto um preditor de obstruções que 
leva em consideração o cálculo do fluxo volumétrico de aço líquido descarregado no 
molde, tendo como parâmetros a velocidade de lingotamento, largura do molde, 
abertura da válvula e peso do distribuidor. 
Na pesquisa de Wang et al. (2021) os autores com o objetivo de melhorar o 
monitoramento e controle sobre o lingotamento contínuo, propõem a modelagem de 
três índices para quantificar o nível de obstrução em válvula submersa, baseando 
em parâmetros de operação como a posição da haste de bloqueio (stopper rod). A 
posição da haste é determinante no fluxo de aço através da válvula submersa para o 
molde (Figura 19), sendo que os índices de obstrução são calculados baseando em 
desvios de haste de sua posição teórica ideal. Foram utilizadas 60 variáveis como 
entradas em uma arquitetura de rede neural profunda do tipo LSTM (Long-Short 
Term Memory) no intuito de prever índices de obstrução em tempos futuros. 
 
Figura 19 – Visão esquemática do sistema distribuidor-molde. 
 
Fonte: Adaptado de Wang et al. (2021). 
41 
Os estudos de Kadli et al. (2016) e Kong, Chen e Cang (2019) trazem modelos 
físicos para o comportamento do fluxo de aço nas válvulas, baseado em condições 
teóricas de operação normal, considerando aspectos geométricos dos componentes 
envolvidos no lingotamento, densidade e temperatura do aço dentre outros. Desvios 
destas condições são indicativos do início de obstrução. 
A Tabela 2 apresenta 5 variáveis representativas, de um conjunto total de 19 séries 
(sinais do processo) utilizadas na modelagem desenvolvida. Como observação, a 
máquina de lingotamento avaliada neste trabalho controla de fluxo de aço por meio 
placas concêntricas deslizantes (válvula gaveta) ao invés do uso de “tampão” 
(stopper rod). 
 
Tabela 2 – Exemplos de variáveis dinâmicas do processo. 
Descrição MIN MAX Unidade 
Peso do carro distribuidor 0 70 ton 
Velocidade do veio de lingotamento 0 2,5 m/min 
Nível do molde 0 150 mm 
Injeção de Argônio 0 60 NL/min 
Abertura de válvula gaveta 0 100 % 
Fonte: Elaborado pelo Autor (2021) 
 
3.2 FUNDAMENTOS PARA EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES 
Um parâmetro essencial no desenvolvimento deste trabalho está baseado na 
definição do intervalo de tempo para discretização das séries temporais escolhidas. 
O sinais do processo, amostrados de 10 em 10 segundos, foram divididos em 
janelas de tempo de tamanho fixo, e para cada uma destas janelas foram extraídas 
conjuntos de características capazes de representar o comportamento de cada sinal 
no intervalo. 
Para um melhor entendimento, considera-se um período de 10 minutos em um 
hipotético processo industrial, ilustrado pela Figura 20. Para este cenário definimos 
os seguintes parâmetros objetivando discretizar as séries temporais: Tamanho da 
42 
janela t=5 (minutos), conjunto de sinais amostrados, S1 = {ts.sinal.A, ts.sinal.B}, e um 
dicionário de características, DC1 = {n_of _peaks, n_crossing_m}, que correspondem 
respectivamente ao número de picos do sinal e número de vezes que o sinal 
atravessou a média dos valores no intervalo da janela. 
 
Figura 20 – Sinais contínuos do processo. 
 
Fonte: Elaborado pelo autor (2021) 
 
Fazendo uso de um extrator de características, como pacote Python TSFresh (Time 
Series FeatuRe Extraction on basis of Scalable Hypothesis tests) (CHRIST et al., 
2018), e passando como parâmetros os conjuntos S1 (indexados com um 
identificador da Janela) e DC1, teremos como resultado a discretização das séries 
apresentada na Figura 21. Observa-se que o conjunto de dados brutos, contendo os 
10 minutos de sinais amostrados, foram comprimidos em apenas duas linhas (uma 
para cada janela de 5 minutos) contendo as características escolhidas para 
representar o comportamento dos mesmos. Por termos utilizado um dicionário 
contendo duas características parametrizadas e sendo o mesmo aplicada sobre 
duas séries, obtém-se em cada linha resultante um total de 4 características 
extraídas (C1 a C4). 
 
43 
Figura 21 – Discretização de séries temporais. 
 
Fonte: Elaborado pelo autor (2021) 
 
Um parâmetro importante para o extrator de características é a necessidade de um 
identificador único que deve ser passado com todas as amostras de dados brutos 
contidos na janela ao qual se pretende discretizar (vide Figura 21). Para os dados 
reais deste estudo foi desenvolvida uma fórmula que garante a unicidade deste 
identificador em toda série histórica, baseando em uma diferença temporal em 
segundos entre o tempo da amostra e uma data base. 
O código python descrito na Figura 22 demonstra a conversão de uma janela de 
tempo iniciada em “04/01/2019 09:20:00” para o identificador único 5155312. O 
parâmetro window_size=5, garante que todas as amostras no intervalo de 5 minutos 
recebam o mesmo identificador, o que é demostrado no código da Figura 23 para as 
janelas entre 5155312 e 5155314. 
 
Figura 22 – Geração de identificador para as janelas de tempo (código python). 
 
Fonte: Elaborado pelo autor (2021) 
 
 
 
44 
Figura 23 – Unicidade de identificador demonstrada em 3 janelas de 5 minutos 
(código python). 
 
Fonte: Elaborado pelo autor (2021) 
 
A escolha do intervalo de tempo das janelas de discretização, bem como o conjunto 
de características a serem extraídas, demandam conhecimento do processo e uma 
análise criteriosa do comportamento de cada sinal em suas séries históricas. Estas 
características são preponderantes para separar os comportamentos das séries 
multivariadas em grupos de operação distintos (normais ou anômalos). 
No estudo realizado por Barati et al. (2018) foi apresentada uma avaliação detalhada 
sobre a formação de obstrução em válvulas submersas, descrevendo as principais 
fases de evolução do fenômeno e com os respectivos tempos associados. Segundo 
a pesquisa, a formação da obstrução pode ser dividida em 3 fases e que são 
apresentadas na Figura 24. A primeira fase é denominada de cobertura (covering) 
onde ocorre uma cobertura inicial da parede da válvula por partículas depositadas. A 
taxa de deposição aumenta inicialmente, depois diminui e flutua até 80 segundos 
onde se inicia a fase de formação de protuberâncias (bulging). Nesta fase a taxa a 
deposição de partículas é quase constante com pequenas flutuações e dura de 80 a 
180 segundos. Após os 180 segundos, inicia-se a geração de estruturas ramificadas 
(branching) que culminam com o entupimento total do sistema, o que ocorre em 
torno de 250 segundos. 
 
45 
Figura 24 – Evolução da obstrução. 
 
Nota: a) Visão da região de entupimento de seção vertical e transversal (A-A) da válvula. b) Três 
principais períodos de evolução da obstrução. 
Fonte: Barati et al. (2018) 
 
Para este trabalho, o intervalo da janela para extração de característica das séries 
temporais foi definido em 300 segundos (5 minutos) levando em consideração a 
velocidade do processo de lingotamento e o intervalo de interesse da operação para 
percepção do problema. 
Em relação às características a serem extraídas das séries, foram parametrizados 7 
dicionários de características aplicados a conjuntos específicos de sinais através do 
pacote TSFresh. A Figura 25 nos ajuda a visualizar um exemplo de um trecho dos 
dados históricos que contribuiu para escolha destas características. A figura 
apresenta quatro séries temporais, tendo em destaque um período de obstrução 
compreendendo as janelas de 5155312 (“4/1/2019 09:20:00”) a 5155314 (“4/1/2019 
09:35:00”). 
 
Figura 25 – Janela de obstrução e escolha de características das séries. 
 
Fonte: Elaborado pelo autor (2021) 
46 
O sinal de coloração azul representa o percentual de abertura da válvula gaveta e 
observa-se que ele sai de um padrão estável de controle, passa por uma rampa e na 
sequência por oscilações. O sinal de coloração marrom indica a velocidade do veio 
que por sua vez sofre uma desaceleração. Esta situação representa uma forte 
pertubação no processo, caracterizada pela obstrução da válvula. Por observação, 
características dos sinais como número de mínimos e máximos, número de picos, 
distanciamento da média seriam determinantes para diferenciar um período (janela) 
do processo contendo sinais estáveis de um período com o sinais oscilantes. O 
quadro 1 exemplifica 3 dos 7 dicionários de características que foram extraídas nas 
séries dos sinais de abertura de válvula, 1ª diferença da abertura de válvula e nas 
séries dos bicos injetores de argônio. 
 
Quadro 1 – Exemplos de três dicionários de características usados em séries 
temporais. 
Dicionários de Características 
Análise de abertura de válvula mean_second_derivative_central 
mean, median, minimum, maximum variance_larger_than_standard_deviation 
variance, standard_deviation Análise da válvula – 1ª diferença das séries 
absolute_sum_of_changes count_above_mean, count_below_mean 
linear_trend: [{’attr’: ’slope’}] variance_larger_than_standard_deviation 
large_standard_deviation: [{’r’: 0.5}] number_crossing_m: [{’m’: 0}] 
longest_strike_above_mean Análise das variáveis de argônio 
longest_strike_below_mean linear_trend: [{’attr’: ’slope’}] 
mean_change  
Fonte: Elaborado pelo Autor (2021) 
 
Este processo de extração de características e condicionamento de dados foi 
aplicados aos 2 meses de dados brutos do processo, originando uma base de dados 
de 33.954 amostras (ou janelas) com 59 características (ou dimensões) extraídas 
por amostra, considerando os 2 veios da máquina de lingotamento contínuo. As 
amostras possuem um identificador final único no formato {idVeio + idJanela} que 
representam o veio de lingotamento (3 ou 4) seguido do sequencial da janela que foi 
gerado pelo método previamente descrito. 
47 
A Figura 26 demonstra um trecho do dataset final gerado após esta etapa de 
extração de caracetrísticas, onde cada linha representa uma janela (5 minutos) do 
processo com as 59 características extraídas e indexadas no formato {idVeio + 
idJanela}. 
 
Figura 26 – Exemplos das 59 características finais extraídas em sinais do veio 3. 
 
Fonte: Elaborado pelo Autor (2021). 
 
3.3 MODELAGEM 
Para este trabalho foi elaborado um pipeline (Figura 27) composto por um conjunto 
de técnicas no intuito de se gerar rótulos válidos que possam caracterizar a 
obstrução em válvulas de lingotamento contínuo, servindo de suporte para a 
construção de um modelo preditor capaz de identificar o problema em tempo de 
lingotamento. 
 
Figura 27 – Pipeline para identificação de rótulos. 
 
Fonte: Elaborado pelo Autor (2019). 
 
Como primeira etapa do pipeline foi definido um conjunto de sinais do processo de 
lingotamento contínuo, representados por séries temporais multivariadas (bloco 
48 
“Seleção Séries Temporais”). Nesta etapa ocorre a segmentação dos dados de 
processo em subconjuntos de intervalos (janelas), percorrendo toda a série histórica. 
Esta operação é um pré-requisito necessário para o algoritmos subsequente de 
extração de características das séries temporais. Como já explicado em seção 
prévia, o intervalo das janelas foi definido em 5 minutos levando em consideração a 
velocidade do processo e o intervalo de interesse da operação para percepção do 
problema. 
A Figura 28 traz um exemplo de um destes subconjuntos, contendo amostragens 
dados brutos do processo e indexados com um identificador único para janela. Estes 
dados por sua vez servirão de entrada para a próxima fase onde serão extraídas um 
conjunto de características representativas dos sinais nos intervalos (bloco “TSFresh 
+ Features Customizadas”). Veja que neste exemplo temos a janela 5163264, 
correspondente ao intervalo de “01/02/2019 00:00:00” a “01/02/2019 00:04:59” (5 
minutos), destacando os dados brutos de algumas séries como o percentual de 
abertura da válvula gaveta (coluna LC2.K_SLDGT_STR3A_AL_POS), ingestão de 
argônio (coluna LC2.FT_683_3_F) e peso do carro distribuidor (coluna 
LC2.C_TD_CAR_WGHT_A). Observa-se também que o sinal foi amostrado de 10 
em 10 segundos com o identificador da janela inserido em todas as linhas 
amostradas no intervalo. A nomenclatura destas colunas se refere às variáveis de 
processo cadastradas no sistema de PIMS (do inglês, Plant Information 
Management Systems) da siderúrgica, sistema este que por sua vez é responsável 
por adquirir dados do processo de diversas fontes e gravá-los em um banco de 
dados temporal, especializado para compressão e armazenamento de dados 
históricos em grande volume. 
 
 
 
 
 
 
49 
Figura 28 – Exemplo de janela sobre os sinais do processo. 
 
Fonte: Elaborado pelo Autor (2021). 
 
Com base em análises exploratórias dos dados e entendimento da natureza física do 
processo foram definidas características que poderiam ser determinantes na 
separação realizada pelo método de clusterização, para diferenciar a normalidade do 
processo dos casos de pertubações que caracterizam a obstrução nas válvulas 
submersas. 
Foram parametrizados 7 dicionários de características a serem extraídas, sendo 
cada série temporal associada a um destes grupos. Com base nestes parâmetros e 
os dados das séries presentes na janela, inicia-se um processo automático de 
extração de características fazendo uso do pacote Python TSFresh (Time Series 
FeatuRe Extraction on basis of Scalable Hypothesis tests) (CHRIST et al., 2018). De 
forma complementar adicionou-se novas características customizadas como a 
diferença entre mínimos e máximos dos sinais nas janelas, bem como realizou-se a 
extração de características da correlação entre a velocidade dos veios de 
lingotamento e abertura de válvula. 
50 
A Figura 29 exemplifica este processo, onde são utilizados dois dos 7 dicionários de 
características a serem extraídas dos sinais. O dicionário “fc_parameters5 ”, contém 
3 características de interesse a serem extraídas do sinal de nível do molde 
(minimum, maximum e a integral do sinal sum_values). Já o dicionário 
“fc_parameters” parametriza 15 características que deverão ser extraídas do sinal de 
abertura da válvula gaveta. Como resultante temos a geração de 18 novas 
dimensões no dataset, sendo 15 associadas ao sinal de percentual de abertura de 
válvula e 3 relacionadas ao sensoriamento de nível do molde. Estas 18 dimensões 
(ou características) irão compor um total de 59 (Figura 26), levando em consideração 
as extrações dos demais sinais avaliados no intervalo da janela. 
 
Figura 29 – Extração de características nos sinais em janela deslizante. 
 
Fonte: Elaborado pelo Autor (2021). 
 
51 
Importante ressaltar que os veios possuem comportamento diferentes em função de 
aspectos de equipamento e processo, visto que podem ser produzidas placas de 
dimensões diferentes nos mesmos. Entretanto optou-se neste trabalho em usar as 
mesmas características, extraídas das séries de ambos os veios, em um processo 
único de clusterização. Com isto, eleva-se o número de amostras no intuito de se 
generalizar o modelo. 
Os vetores de características gerados passam por um processamento (bloco 
“Condicionamento dos Dados”). Atividades para condicionamento dos dados foram 
realizadas antes de se dar início à etapa de geração dos clusters, tendo por objetivo 
eliminar ou minimizar a influência de situações como falta de dados e duplicidade de 
amostras (GARCÍA; LUENGO; HERRERA, 2016). Condições de parada de processo 
(σ < 0  1 em determinadas features) também foram filtradas. Características com 
variância zero foram eliminadas e mediu-se os coeficientes de correlação de 
Pearson entre as variáveis restantes. O coeficiente de correlação mensura o quão 
uma variável pode ser estimada ou explicada a partir de outra, assumindo valores 
entre -1 e +1. Os valores extremos da faixa indicam colinearidade perfeita, sendo -1 
para correlação perfeita inversamente proporcional e +1 para correlação perfeita 
diretamente proporcional. Por fim, o coeficiente nulo indica independência estatística 
entre as variáveis. Variáveis com índice de correlação superior a 0,98 foram 
eliminadas para redução de dimensionalidade do vetor de características das séries. 
Finalmente, visando estabelecer os mesmos graus de importância entre as variáveis 
independentes, os dados foram normalizados. 
Em seguida são sequenciados dois passos de clusterizações, combinados em 
diferentes espaços dimensionais fazendo uso do algoritmo DBSCAN (blocos 
“DBSCAN 1 Norma x Outliers” e “DBSCAN 2 (Outliers)”), obtendo-se os rótulos das 
anomalias (bloco “Geração de Label (Cluster de Clogging)”). 
A primeira etapa de clusterização teve por objetivo separar as janelas de operação 
normal dos outliers. Os hiper-parâmetros do DBSCAN foram ajustados para este 
propósito com valores de ε =    35 e ε =   com minPts correspondendo a 5% da 
amostra, fazendo uso das distâncias euclidiana e de Mahalanobis. Os parâmetros 
para os “clusters euclidianos” tiveram por objetivo caracterizar fortemente a norma 
de operação enquanto os parâmetros para Mahalanobis buscaram caracterizar os 
52 
outliers. Estes outliers identificados foram projetados em um espaço dimensional 
reduzido fazendo uso do algoritmo UMAP (Uniform Manifold Approximation and 
Projection) (MCINNES; HEALY; MELVILLE, 2018). UMAP é uma técnica de redução 
de dimensionalidade não linear (e não determinística), se mostrando 
computacionalmente mais eficiente do que reduções dimensionais similares como o 
t-SNE (MAATEN; HINTON, 2008) e preserva a natureza das relações entre os 
pontos após a projeção no espaço dimensional reduzido. 
Uma segunda etapa de clusterização é realizada sobre o espaço projetado pelo 
UMAP, considerando apenas o universo de pontos classificados como outliers na 
primeira etapa. Para esta fase foi realizado uma calibração dos hiper-parâmetros do 
DBSCAN considerando o sillhouette score (ROUSSEEUW, 1987) como métrica de 
avaliação da qualidade dos clusters. 
Uma análise visual de amostras dos elementos destes clusters proporciona uma 
rápida identificação dos principais casos de interesse, gerando um conjunto inicial de 
rótulos que serve de base para o passo final deste pipeline que envolve uma técnica 
de propagação de rótulos semi-supervisionada (bloco “KNN Label Spreading”). 
 
 
 
 
 
 
 
 
 
 
53 
4 EXPERIMENTOS, RESULTADOS E DISCUSSÃO 
Neste capítulo são detalhados os experimentos realizados tendo como base o 
método proposto no Capítulo 3, trazendo uma apresentação e discussão sobre os 
resultados obtidos. 
 
4.1 CLUSTERIZAÇÃO 
Todas as janelas da base de dados foram submetidas ao algoritmo de clusterização 
(DBSCAN) com dois objetivos distintos: 
1. Caracterização da norma de operação: Uso de distância euclidiana e hyper-
parâmetros (ε, minPts) ajustados para caracterizar fortemente regiões de 
operação normal no processo e aumentar a zona de fronteira com os outliers. 
Esta abordagem trouxe melhores amostras representando as condições 
normais de operação e permitiu uma melhor “competitividade” no processo 
subsequente de propagação de rótulos. 
2. Seleção de outliers: Uso da distância de Mahalanobis e hyper-parâmetros 
ajustados para segregar de forma mais efetiva os outliers. 
Como resultado foram geradas 9.636 amostras de norma e 1.258 anomalias. O 
gráfico da Figura 30 apresenta uma visualização UMAP dos resultados contendo os 
clusters euclidianos da norma de operação (0, 1, 2). É de se esperar que as 
condições normais de operação sejam muito mais frequentes que as situações 
anômalas no processo, consequentemente espera-se também que o método não-
supervisionado gere clusters mais densos (ou maiores) agrupando as janelas 
temporais que representem estas condições. O gráfico no espaço UMAP demonstra 
que isto de fato ocorreu onde pode-se observar grandes “ilhas” de dados separadas. 
 
 
 
54 
Figura 30 – Clusterização inicial (Outliers x Operação normal). 
 
Fonte: Elaborado pelo Autor (2019). 
 
Buscando caracterizar ainda mais as janelas de operação normal, foram realizados 
ajustes nos hiper-parâmetros do método de clusterização visando agrupar os pontos 
mais próximos dos centroides dos clusters. O resultado desta parametrização 
também pode ser interpretado no gráfico, onde as colorações dos clusters 0,1,2 
(verde, azul e magenta respectivamente) destacam estas regiões centrais, com os 
demais pontos se tornando outliers (espaço de pontos em vermelho) e sendo 
desprezados nesta etapa. 
Em unanimidade, as pesquisas na literatura correlacionam o evento de obstrução 
com a abertura da válvula e a velocidade do veio (WANG et al., 2021; KONG; 
CHEN; CANG, 2019; KADLI et al., 2016; ROUT et al., 2013; IKäHEIMONEN et al., 
2002). 
Para demonstrar a natureza dos elementos que compõem estes cluster de operação 
normal foram selecionadas 3 janelas pertencentes aos mesmos, apresentadas na 
Figura 31. Destaca-se os sinais de abertura da válvula (série 
LC2.K_SLDGT_STR3A_AL_POS), velocidade do veio de lingotamento (série 
LC2.e_VEL_REAL_G1_A2) e nível do molde (série LC2.K_MLD_LVL_NKK_3A). 
Observa-se que o controle dos sinais se apresenta estável no período das janelas 
amostradas (com ausência de rampas ou oscilações). 
 
 
55 
Figura 31 – Elementos pertencentes aos clusters de operação normal. 
 
Fonte: Elaborado pelo Autor (2021). 
 
Um outro fator positivo desta estratégia foi que além de melhorar a qualidade das 
amostras, trouxe um melhor balanceamento no dataset visto que o número de 
janelas de operação normal foi reduzido, apesar de ainda continuar significativo 
quando comparado com as amostras anômalas. 
O gráfico da Figura 32 apresenta os outliers gerados com a distância de 
Mahalanobis. Com estas anomalias caracterizadas, evolui-se no pipeline para uma 
segunda etapa de clusterização onde as mesmas são projetadas em espaço 
dimensional reduzido (UMAP) e novamente executa-se o DBSCAN, tendo os seus 
hiper-parâmetros calibrados e avaliados por sillhouette score. 
 
Figura 32 – Clusterização inicial (Outliers x Operação normal). 
 
Fonte: Elaborado pelo Autor (2019). 
56 
Para demonstrar a natureza dos outliers foram selecionadas 3 janelas deste 
conjunto e apresentadas na Figura 33. Destaca-se novamente os sinais de abertura 
da válvula (série LC2.K_SLDGT_STR3A_AL_POS), velocidade do veio de 
lingotamento (série LC2.e_VEL_REAL_G1_A2) e nível do molde (série 
LC2.K_MLD_LVL_NKK_3A). Observa-se que a máquina conseguiu separar padrões 
que diferem estes intervalos dos cenários de operação normal, como os degraus nas 
janelas 5154700 e 5164214 e a forte rampa (seguida de decaimento) no sinal de 
abertura de valvula pertencente a janela 5155577. 
 
Figura 33 – Amostras de outliers separadas com a distância de Mahalanobis. 
 
Fonte: Elaborado pelo Autor (2021). 
 
Nesta segunda etapa, com os novos clusters gerados somente com os outliers, 
buscou-se uma caracterização ainda maior de cenários anômalos distintos no 
processo. Estes clusters gerados (Figura 34) serviram de base para uma análise 
visual e geração das “sementes” que foram submetidas ao processo subsequente de 
propagação de rótulos. Com destaque para os clusters 4 e 7 que ao serem 
inspecionados trouxeram em sua totalidade padrões bem caracterizados de uma 
classe de “anomalias conhecidas” pela operação como troca de válvula, saída e 
retorno de processo dentre outros. 
 
57 
Figura 34 – Clusterização dos outliers. 
 
Nota: Destaque para os clusters 4 e 7 separando “anomalias conhecidas” no processo. 
Fonte: Elaborado pelo Autor (2020) 
 
4.2 PROPAGAÇÃO DE RÓTULOS E ACTIVE LEARNING 
A etapa final do pipeline consiste na aplicação de uma técnica semi-supervisionada 
de propagação de rótulos (RAMOS et al., 2020). Neste contexto foram definidas 3 
classes distintas a serem utilizadas pelo algoritmo. A classe de operação normal 
(rótulo 0) foi populada com as 9.636 amostras dos clusters de norma geradas na 1ª 
etapa de clusterização. Uma segunda classe, denominada “anomalias conhecidas” 
(rótulo 3) foi populada, contendo os clusters 4 e 7 (em sua totalidade) provenientes 
da 2ª etapa de clusterização. Esta classe foi bem caracterizada na etapa anterior e 
representa cenários anômalos (por exemplo, a troca de válvulas) diferentes do 
problema alvo de obstrução. Adicionalmente foram acrescentadas a esta classe 
todos os intervalos de parada de processo que foram filtrados durante a fase de 
extração de características, totalizando 6.984 amostras. Por fim, para popular a 
classe de obstrução (rótulo 7), foram cruzadas as amostras de outliers identificadas 
pelo método de clusterização com macro-intervalos de prováveis obstruções 
sugeridos pela metalurgia e apontados (de uma forma indireta) pelos sistemas de 
qualidade da empresa. Deste cruzamento, pode-se observar 152 amostras 
consistentes de obstrução que serviram para semear o processo de propagação de 
rótulos. As demais amostras (17.182) foram consideradas não rotuladas (rótulo -1) e 
58 
consistem o espaço de propagação do algoritmo. Inicia-se então o processo semi-
supervisionado com as seguintes etapas: 
1. Remarcação dos rótulos da norma original. 
2. Execução do algoritmo de propagação de label: Kernel kNN, n_neighbors = 7, 
α = 20%. 
3. Análise visual dos resultados provenientes de uma estratégia de seleção. 
4. Confirmação e consequente geração de novos rótulos. 
5. Reinicia passo 1 até convergir. 
Como medida de informatividade, foram apresentados amostras marcadas pelo 
processo de propagação de rótulos que atendam a um limiar de probabilidade. O 
algoritmo de propagação nos traz esta informação (uma matriz de percentuais 
probabilísticos), indicando o quanto provável um determinado elemento, não 
rotulado, pode ser migrado para as respectivas classes vizinhas. 
Inicia-se com um limiar de alta confidencialidade, considerando probabilidades 
superiores a 90% de um elemento não rotulado pertencer a uma determinada 
classe. Filtra-se as amostras que atendam a este limite sendo as mesmas levadas 
ao especialista para análise visual. A avaliação do comportamento dos sinais é 
então realizada, e em certos casos, buscou-se no sistema MES da empresa a 
existência de eventos de qualidade registrados no período. Os rótulos das amostras, 
sendo confirmados pelo especialista, retornam para o conjunto de propagação no 
intuito de acelerar a convergência e consequente aprendizado do algoritmo. Estas 
amostras confirmadas também não são apresentadas nas próximas iterações, onde 
gradativamente os limiares de probabilidades vão sendo reduzidos. Devido ao 
desbalanceamento entre as situações de operação normal e cenários de pertubação 
no processo, busca-se com esta estratégia acelerar a rotulagem das amostras de 
anomalias, e consequentemente fortalecer a propagação destas classes durante o 
ciclo. Uma outra contramedida adotada foi a remarcação dos rótulos da norma 
original a cada iteração. Apesar dos novos rótulos gerados para a norma serem 
armazenados e adicionados ao final do processo, durante os ciclos este 
encolhimento (ou reset da norma) proporcionava um fortalecimento ainda maior da 
59 
propagação dos casos mais raros, visto os critérios de votação do kNN na análise de 
elementos vizinhos. 
O Quadro 2 traz uma visão consolidada de todo o processo com os respectivos 
limiares utilizados pela estratégia de consulta, bem como o total de rótulos gerados a 
cada iteração. Percebe-se que a cada rodada a quantidade de novos bons rótulos 
para as classes de interesse vão se reduzindo e praticamente se esgotam (estado 
de convergência) no sétimo estágio de observação, quando foi interrompido o ciclo. 
Para visualizar a propagação de rótulos também fez-se uso de uma projeção em 
espaço UMAP, onde a Figura 35 ilustra o primeiro passo bem como o estágio final 
em que se interrompeu o processo. O quantitativo de rótulos neste estágio final, 
após 7 iterações, esta sumarizado no Quadro 3. 
 
Quadro 2 – Interações do ciclo semi-supervisionado e gerações de novos rótulos. 
 
Fonte: Elaborado pelo Autor (2021) 
 
 
 
 
 
60 
Figura 35 – Propagação de rótulos: Sem rótulos(-1), Norma(0), Anomalias 
conhecidas(3), Obstruções(7). 
 
Fonte: Elaborado pelo Autor (2020) 
 
Quadro 3 – Rótulos após Propagação. 
Rótulo Amostras Descrição 
-1 11515 Sem rótulos (espaço de propagação) 
0 12381 Operação normal 
3 8167 Anomalias conhecidas 
7 1891 Obstrução 
Fonte: Elaborado pelo Autor (2021) 
 
A Figura 36 apresenta o que seria um cenário final de convergência do método, 
projetado em espaço UMAP. Para tal é gerado com um passo complementar onde 
se permite uma propagação final (e completa) feita pelo algoritmo, eliminando toda a 
61 
região ainda não rotulada. Totaliza-se 24.175 amostras de norma, 8.132 amostras 
de anomalias conhecidas e 1.647 de obstruções. Vale ressaltar que para fins de 
classificação e objetivando um melhor balanceamento no dataset, este passo final foi 
desprezado, mantendo apenas os rótulos gerados no sétimo estágio de propagação 
e desprezando as 11.515 amostras que ainda seriam passíveis de ser rotulados. 
 
Figura 36 – Active Learning - Distribuição final das classes. 
 
Fonte: Elaborado pelo Autor (2020) 
 
Para viabilizar este ciclo de Active Learning e consequente geração dos rótulos, foi 
construída uma ferramenta em Python para visualização dos resultados do algoritmo 
ativo de propagação de rótulos. Gera-se visões resultantes de cruzamento dos ids 
das amostras rotuladas, matriz probabilística do kNN e os dados brutos das séries 
temporais originais. 
62 
A Figura 37 exemplifica a interface criada para seleção das classes pelo 
especialista, considerando as amostras informativas escolhidas por uma estratégia 
de maior confiabilidade dos rótulos. A região em destaque faz referência a uma 
janela (5 minutos) dentro da série multivariada. Para contextualizar melhor o 
processo e consequente análise, janelas complementares (anteriores e posteriores) 
são adicionadas na visualização para suportar o especialista do negócio (Oráculo) a 
uma tomada de decisão sobre o rótulo a ser aplicado no intervalo. O identificador da 
janela bem como a presença de botões seletores para obstrução (clogging), 
anomalias conhecidas (anomalyK ) e operação normal (norma) estão disponíveis na 
interface com o intuito de facilitar e acelerar o processo de rotulagem. 
 
Figura 37 – Seletor de classes - queries enviadas ao oráculo. 
 
Nota: A região em destaque se refere à janela (5 minutos) a ser rotulada pelo especialista do negócio. 
Fonte: Elaborado pelo Autor (2020) 
 
As Figuras 38 e 39 apresentam exemplos de casos identificados (e confirmados) 
através do uso deste ferramental disponibilizado. Na Figura 38 temos os casos de 
obstrução identificados, onde pode-se observar o sinal de abertura de válvula (em 
azul) saindo de uma situação estabilizada de controle dentro do intervalo destacado. 
Outro padrão a se observar nos sinais de algumas amostras são as rampas de 
injeção de argônio (sinais em amarelo e verde), ação usual feita pela operação na 
tentativa de se desobstruir a válvula e estabilizar o sistema. 
63 
Figura 38 – Identificação de Obstruções. 
 
Nota: Sinal de abertura de válvula saindo de uma situação estabilizada de controle no intervalo 
destacado. 
Fonte: Elaborado pelo Autor (2020) 
 
Figura 39 – Identificação de “anomalias conhecidas”. 
 
Nota: Padrões identificados nos sinais (degraus) indicando alta probabilidade de anomalia conhecida. 
Fonte: Elaborado pelo Autor (2020) 
64 
Na Figura 39 é possível observar padrões (degraus) identificados nos sinais de 
abertura de válvula (em azul) e nível do molde (em rosa), que por sua vez indicam 
alta probabilidade de anomalia conhecida. A escolha destes sinais (com suas 
respectivas características) foram essenciais para separação das amostras pelos 
algoritmos de aprendizado. 
Deve-se ressaltar que estes resultados foram analisados por especialistas do 
domínio de interesse que confirmaram os resultados obtidos como correspondendo 
a eventos de obstrução reais. Ou seja, ao final do processo semi-supervisionado de 
propagação de rótulos, 100% dos eventos rotulados como obstruções foram 
validados. 
Finaliza-se então a última etapa do pipeline para identificação de rótulos, gerando 
um ground truth significativo para a etapa subsequente que envolve o 
desenvolvimento de um modelo que possa predizer os eventos de obstrução. 
 
4.3 APRENDIZADO SUPERVISIONADO PARA DETECÇÃO DE OBSTRUÇÃO 
De posse da base rotulada, o próximo passo envolve a construção de modelos de 
aprendizado de máquina, mais especificamente classificadores, que visam a 
predição destas anomalias em tempo de processo, como suporte à decisão para 
julgamento da qualidade dos produtos produzidos. 
Neste contexto, um modelo classificador (multi-classe) foi desenvolvido que recebe 
como entrada as características extraídas dos sinais temporais em janelas de tempo 
de 5 minutos. A variável alvo indica probabilidades de três classes de operação 
durante este intervalo, sendo elas: Lingotamento normal (classe 0), anomalias 
conhecidas como troca de válvulas e parada de máquina (classe 3) ou lingotamento 
com obstrução (classe 7). De forma complementar, um software protótipo foi 
construído com o intuito de apresentar visualmente as anomalias detectadas. Com 
este protótipo já é possível verificar em um formato de “mapa de calor” as regiões de 
menor e maior probabilidade das três classes de interesse. Os resultados da 
classificação foram cruzados, através dos índices temporais, com os dados do 
sistemas de MES da planta (Figura 40) no intuito de representar as placas que estão 
sendo lingotadas nestas regiões. 
65 
Vale ressaltar que a validação do classificador foi feita com uma massa de testes, 
separada dos dados de treinamento do modelo, associada a um período de 4 meses 
de lingotamento. A Figura 40 apresenta resultados da classificação, em um 
determinado intervalo contido nestes 4 meses. Observa-se o comportamento do 
sinal correspondente à abertura de válvula (em azul), como discutido nas sessões 
anteriores, esta série temporal é determinante para caracterização do fenômeno de 
obstrução. Durante o lingotamento da placa “375489407” o sinal da válvula sofre 
uma inclinação abrupta, sendo indicado pelo classificador uma alta probabilidade de 
obstrução (classe 7) no intervalo. A janela de 5 minutos subsequente (“id=5193046”) 
também é classificada como obstrução porém no próximo período já temos um outro 
padrão nos sinais da válvula e do nível do molde (formato de “degrau”), que também 
foi corretamente interpretado pelo classificador como uma “anomalia conhecida” 
(classe 3), referente a uma troca de válvula para desobstruir o sistema. Na 
sequência do processo, o sinal de abertura da válvula volta a um limiar de controle 
estabilizado. 
 
Figura 40 – Protótipo para visualização das obstruções sequenciadas no tempo. 
 
Nota: Classes: obstrução (vermelho), anomalia conhecida (verde), normal (sem coloração). 
Fonte: Elaborado pelo Autor (2020) 
66 
Sobre uma amostragem de 20% do dataset final gerado foram validados um 
conjunto inicial de classificadores, dentre eles: kNN (baseline da propagação), 
Random Forest, SVM e MLP (Quadro 4). Os dados para treino e testes foram 
divididos respeitando uma proporção de 80%/20% onde foram feitas validações 
cruzadas com um total de 5 folds. Também foram feitos experimentos de seleção de 
características e uma adequação no dataset, inserindo-se novas características de 
entrada no modelo, através de uma autorregressão aplicada a cada observação 
(janela de 5 minutos). O termo autorregressão indica uma regressão de uma variável 
contra si mesma (HYNDMAN; ATHANASOPOULOS, 2018), usa-se observações de 
etapas de tempo anteriores como entrada para prever o valor na próxima etapa de 
tempo. A Tabela 3 demonstra o conceito aplicado sobre as 59 características 
originalmente extraídas, onde gerou-se um novo dataset com um total de 118 
características. 
 
Quadro 4 – Resultados percentuais preliminares de classificação (Métrica: Recall). 
 
Nota: Modelos: (a) kNN, (b) SVM, (c) Rede Neural (MLP), (d) Randon Forest 
Fonte: Elaborado pelo Autor (2021) 
 
Tabela 3 – Autoregressão (t − 1). 
 
Fonte: Elaborado pelo Autor (2021) 
67 
Com a autorregressão busca-se levar para o classificador observações de janelas 
passadas a fim de que sejam correlacionadas com a janela atual. Um exemplo 
clássico observado no contexto deste problema, foi dar ao classificador mais 
características para auxiliar no discernimento de situações limítrofes, como retorno 
de operação contra obstrução em válvula. Neste contexto, por experimentos, a 
janela passada se mostrou clara e visualmente determinante para diferenciação das 
classes. 
O resultado do modelo de classificação desenvolvido neste trabalho mostra-se 
promissor quando comparado com resultados de outros modelos preditores 
encontrados na literatura. Este comparativo está demonstrado na Tabela 4. 
 
Tabela 4 – Comparativo com outros modelos para predição de obstruções. 
 
Fonte: Elaborado pelo Autor (2021) 
 
4.4 IDENTIFICAÇÃO DE OBSTRUÇÕES POR ANÁLISE DE SÉRIES 
TEMPORAIS 
Com os dados devidamente rotulados, o processo para identificação de obstruções 
deve ser complementado com a geração de um modelo classificador ensemble que 
tem como parâmetros de entrada as características extraídas das séries temporais. 
Os experimentos preliminares de classificação trouxeram resultados promissores, 
porém entende-se que a identificação de obstruções pode ser refinada e 
consequentemente tendo sua acurácia final melhorada. Pela análise exploratória foi 
possível identificar amostras difíceis de serem separadas o que estimula a 
investigação de técnicas, ou combinação de técnicas ensemble no intuito de se 
endereçar o problema alvo deste trabalho. 
A Figura 41 traz um exemplo deste experimento de análise exploratória que foi 
realizado em uma amostragem de 20% dos dados do dataset final gerado. Foi 
68 
possível verificar a separação das 3 classes de interesse com um algoritmo de PCA 
aplicado onde em verde temos os rótulos de obstrução (classe 7), em azul os rótulos 
de operação normal (classe 0) e em vermelho as anomalias conhecidas (classe 3). 
Verifica-se também regiões com amostras bem separadas e regiões de “fronteira” 
com os casos de difícil separação. Um exemplo destes casos foi destacado onde 
uma região classificada como obstrução (que foi uma obstrução de fato) é muito 
similar a uma outra região corretamente classificada como operação normal. Nota-se 
uma similaridade nas “rampas” dos sinais porém para o primeiro caso se tratava de 
uma abertura exagerada da válvula gaveta provocada pela obstrução e já a rampa 
no segundo caso está associada a um comportamento normal de retomada do 
processo após uma troca de válvula submersa. 
 
Figura 41 – Complexidade de classificação nas regiões de "fronteira". 
 
Fonte: Elaborado pelo Autor (2021) 
 
Novas abordagem de classificação estão sendo aplicadas em cenários industriais 
através de uma combinação de técnicas de Deep Learning. Wang et al. (2018) faz 
uma decomposição de wavelets associada a dois tipos de redes neurais profundas, 
69 
uma CNN (do inglês, Convolution Neural Network) sequenciada de uma rede LSTM 
(do inglês, Long Short-Term Memory) para previsibilidade futura na geração de 
energia em uma planta industrial com um grid de células fotovoltaicas. Parte da 
arquitetura proposta é ilustrada na Figura 42. 
 
Figura 42 – Rede CNN para extração de características combinadas com um 
preditor LSTM. 
 
Fonte: Wang et al. (2018) 
 
Li et al. (2019) traz uma abordagem similar com uso de Deep Learning para 
diagnóstico de sinais industriais. Uma contribuição indireta do uso destas 
abordagens é que características são geradas pela arquitetura de Machine Learning 
(camada de convolução), sem a necessidade de inferências de especialistas do 
negócio. 
 
4.5 ANÁLISE DOS RESULTADOS 
Sobre o trabalho, é possível enumerar alguns aspectos positivos e negativos sobre o 
contexto até então desenvolvido. 
Dentre os pontos positivos entende-se que a metodologia de rotulagem aplicada 
pode ser estendida para outros cenários da industria, que em muitos casos, são 
carentes de rótulos. 
70 
A rotulação de sinais de processo pode-se dizer que é bem mais complexa do que 
dar rótulos a datasets de objetos comuns (diferenciar cães de gatos, casas, veículos 
dentre outros). Além disto, especialistas sobre este domínio de conhecimento são 
bem mais raros e com a disponibilidade de tempo escassa. Portanto uma técnica 
capaz de acelerar este processo de rotulação é de grande valia. 
O uso de metodologias clássicas de aprendizado de máquina, aplicadas neste 
trabalho, facilita a legibilidade dos resultados gerados. Com a posse de uma base 
rotulada, novas técnicas como deep learning poderiam ser aplicadas, porém é de se 
esperar um perda de legibilidade (ou dificuldade de interpretação) nos resultados 
obtidos ao se fazer uso de técnicas desta natureza. 
Em relação aos aspectos negativos, e consequente estímulo a se buscar 
oportunidades de melhoria, vale ressaltar que o processo de seleção das melhores 
características dentre os sinais foi custoso, demandando tempo para análise das 
séries históricas e com grande suporte dos especialistas de domínio. 
A metodologia de Active Learning e seus respectivos parâmetros pode ser melhor 
explorada em trabalhos evolutivos futuros. Considerar outras estratégias de queries, 
variações nos limiares de probabilidade ou o uso de frameworks são exemplos que 
podem ser melhor investigados. Sendo assim, com estas variações, sugere-se 
também uma análise comparativa dos tempos de convergência de forma a indicar 
melhores parâmetros a serem aplicados nas técnicas de Active Learning no contexto 
de processos industriais. 
 
 
 
 
 
 
 
71 
5 CONSIDERAÇÕES FINAIS E CONCLUSÃO 
O problema de obstrução pode causar perdas na produção e impactos de qualidade 
no processo de lingotamento contínuo do aço. A ausência de conjuntos de dados 
rotulados para obstruções, bem como outros estados de operação, restringe o 
desenvolvimento de modelos de aprendizado de máquina para predição deste tipo 
de anomalia no processo. Este trabalho desenvolveu um método para rotulação de 
eventos de obstrução de lingotamento contínuo em uma base de dados composta 
por séries temporais multivariadas. 
A combinação de técnicas de aprendizado não supervisionado com um método de 
aprendizado ativo proporcionou a geração de rótulos válidos para 2 meses de dados 
que compõem as séries históricas avaliadas. 
Em seguida, com o conjunto de dados contendo os eventos de operação já 
rotulados, foi possível construir modelos para identificar os eventos de obstrução de 
lingotamento contínuo. Estes modelos ainda que preliminares, apresentaram 
desempenho adequado, com índice de recall superior a 82% para a classe de 
obstruções (e acima de 95% na acurácia geral). Sendo assim, os modelos 
produzidos podem ser aplicados no processo produtivo da planta industrial, seja 
como suporte às equipes de operação, ou de forma a suportar as equipes de 
metalurgia no julgamento da qualidade dos produtos produzidos. 
Dado o exposto acima é apropriado dizer que este trabalho alcançou o objetivo 
proposto que era o de avaliar o uso de técnicas de aprendizado ativo e análise de 
séries temporais multivariadas para o desenvolvimento de um modelo de detecção 
de eventos de obstrução de lingotamento contínuo. As técnicas estudadas se 
mostraram efetivas na identificação dos eventos de obstrução e robustas o suficiente 
para serem utilizadas em produção em uma planta industrial real. 
Dentre os pontos positivos do trabalho, entende-se que a metodologia de rotulagem 
aplicada pode ser estendida para outros cenários da indústria, que em muitos casos, 
são carentes de rótulos. 
A rotulação de sinais de processo pode-se dizer que é bem mais complexa do que 
dar rótulos a datasets de objetos comuns (diferenciar cães de gatos, casas, veículos 
72 
dentre outros). Além disto, especialistas sobre este domínio de conhecimento são 
bem mais raros e com a disponibilidade de tempo escassa. Portanto uma técnica 
capaz de acelerar este processo de rotulação é de grande valia. 
Outro ponto a se destacar é que o uso de metodologias clássicas de aprendizado de 
máquina, aplicadas neste trabalho, facilita a legibilidade dos resultados gerados. 
Com a posse de uma base rotulada, novas técnicas como deep learning poderiam 
ser aplicadas, porém é de se esperar um perda de legibilidade (ou dificuldade de 
interpretação) nos resultados obtidos ao se fazer uso de técnicas desta natureza. 
 
5.1 TRABALHOS FUTUROS 
Um possível desenvolvimento futuro para este trabalho seria avançar nos estudos de 
classificação, experimentando arquiteturas de deep learning e validando as mesmas 
sobre o dataset final que foi rotulado. Propõe-se comparar os resultados obtidos por 
estas arquiteturas com os resultados de classificadores ensemble (XGBoost, 
LightGBM), bem como com os resultados do classificador preliminar já desenvolvido. 
A metodologia de Active Learning e seus respectivos parâmetros também pode ser 
melhor explorada em trabalhos evolutivos futuros. Considerar outras estratégias de 
queries, variações nos limiares de probabilidade ou o uso de frameworks são 
exemplos que podem ser melhor investigados. Sendo assim, com estas variações, 
sugere-se também uma análise comparativa dos tempos de convergência de forma 
a indicar melhores parâmetros a serem aplicados em técnicas de Active Learning 
para o contexto da indústria. 
 
 
 
 
 
73 
REFERÊNCIAS 
 
ABOUELAZAYEM, Shereen et al. Switched MPC Based on Clogging Detection in 
Continuous Casting Process. IFAC-PapersOnLine, v. 53, n. 2, p. 11491–11496, 
2020. ISSN 24058963. Disponível em: https://linkinghub.elsevier.com/retrieve/pii/ 
S2405896320308909. 
BAGNALL, Anthony et al. The great time series classification bake off: a review and 
experimental evaluation of recent algorithmic advances.(report)(author abstract). 
Data Mining and Knowledge Discovery, Springer, v. 31, n. 3, p. 606, 2017. ISSN 
1384-5810. 
BARATI, Hadi et al. A transient model for nozzle clogging. Powder Technology, 
Elsevier, v. 329, p. 181–198, 2018. 
BOX, George E. P. et al. Time series analysis: forecasting and control. [S.l.: s.n.], 
2016. ISBN 9781118674925. 
BURNS, David M; WHYNE, Cari M. Seglearn: A Python Package for Learning 
Sequences and Time Series. Journal of Machine Learning Research, v. 19, p. 1–
7, 2018. Disponível em: https://github.com/dmbee/seglearn. 
CARDOSO, Thiago N.C. et al. Ranked batch-mode active learning. Information 
Sciences, v. 379, p. 313–337, 2017. ISSN 0020-0255. Disponível em: 
https://www.sciencedirect.com/science/article/pii/S0020025516313949. 
CEMERNEK, David et al. Machine learning in continuous casting of steel: A state-of-
the-art survey. Journal of Intelligent Manufacturing, mar. 2021. ISSN 0956-5515, 
1572-8145. Disponível em: http://link.springer.com/10.1007/s10845-021-01754-7. 
CHANDOLA, Varun; BANERJEE, Arindam; KUMAR, Vipin. Anomaly detection: A 
survey. ACM Computing Surveys, ACM, v. 41, n. 3, p. 1–58, jul. 2009. ISSN 
03600300. 
CHRIST, Maximilian et al. Time Series FeatuRe Extraction on basis of Scalable 
Hypothesis tests (tsfresh - A Python package). Neurocomputing, Elsevier, v. 307, p. 
72–77, sep. 2018. Disponível em: https://www.sciencedirect.com/science/article/pii/ 
S0925231218304843. 
CLEVELAND, Robert B. et al. Stl: A seasonal-trend decomposition procedure based 
on loess (with discussion). Journal of Official Statistics, v. 6, p. 3–73, 1990. 
CRAMB, Alan W; RASTOGI, R; MADDELENA, R. The Making, Shaping and 
Treating of Steel: casting volume. [S.l.]: AISE Steel Foundation, 1999. 
ESTER, Martin et al. A Density-Based Algorithm for Discovering Clusters in Large 
Spatial Databases with Noise. In: INTERNATIONAL CONFERENCE ON 
KNOWLEDGE DISCOVERY AND DATA MINING. 2., 1996. Proceedings… [S.l.: 
s.n.], 1996. p. 226–231. 
74 
GARCÍA, Salvador; LUENGO, Julián; HERRERA, Francisco. Tutorial on practical tips 
of the most influential data preprocessing algorithms in data mining. Knowledge-
Based Systems, Elsevier, v. 98, p. 1–29, apr 2016. ISSN 09507051. 
HYNDMAN, Rob J; ATHANASOPOULOS, George. Forecasting: principles and 
practice. [S.l.]: OTexts, 2018. 
IKäHEIMONEN, Jouni et al. Nozzle clogging prediction in continuous casting of steel. 
In: IFAC WORLD CONGRESS. 15., 2002. Proceedings… [S.l.: s.n.], 2002. v. 35, n. 
1, p. 143–147. Disponível em: https://www.sciencedirect.com/science/article/pii/ 
S1474667015395963. 
JONES, M ; et al. Anomaly Detection in Real-Valued Multidimensional Time Series. 
In: ASE BIGDATA/SOCIALCOM/CYBERSECURITY CONFERENCE, STANFORD 
UNIVERSITY. 2014. Proceedings… [S.l.: s.n.], 2014. ISBN 9781625610003. 
KADLI, R et al. Development and implementation of nozzle clogging index at 
continuous caster to improve length of casting. Int. J. Recent Dev. Eng. Technol, v. 
5, p. 10–14, 2016. 
KONG, Wei; CHEN, Ying-Feng; CANG, Da-Giang. Ladle nozzle clogging during 
casting of silicon-steel. High temperature materials and processes, De Gruyter, v. 
38, n. 2019, p. 813–821, 2019. ISSN 0334-6455. 
LI, Tianfu et al. Waveletkernelnet: An interpretable deep neural network for 
industrial intelligent diagnosis. [S.l.: s.n.], 2019. 
LIAO, T. Warren. Clustering of time series data - A survey. Pattern Recognition, 
Pergamon, v. 38, n. 11, p. 1857–1874, nov. 2005. ISSN 00313203. 
MAATEN, Laurens van der; HINTON, Geoffrey. Visualizing data using t-SNE. 
Journal of Machine Learning Research, v. 9, p. 2579–2605, 2008. Disponível em: 
http://www.jmlr.org/papers/v9/vandermaaten08a.html. 
MCINNES, Leland; HEALY, John; MELVILLE, James. UMAP: Uniform Manifold 
Approximation and Projection for Dimension Reduction. feb. 2018. Disponível 
em: http://arxiv.org/abs/1802.03426. 
MORETTIN P. A.; TOLOI, C. M. Séries Temporais. 2. ed. São Paulo: Atual, 1987. 
NATEKIN, Alexey; KNOLL, Alois. Gradient boosting machines, a tutorial. Frontiers 
in Neurorobotics, Frontiers, v. 7, n. DEC, p. 21, dec 2013. ISSN 16625218. 
OMETTO, L. et al. Successful Use Case Applications of Artificial Intelligence in the 
Steel Industry. In: IRON AND STEEL TECHNOLOGY CONFERENCE. 2019. 
Proceedings... [S.l.]: AIST, 2019. p. 2573–2584. ISBN 978-1-935117-79-7. 
PEIXOTO, Johne Jesus Mol. Modelamento físico e matemático do fluxo no 
Interior de um molde de lingotamento contínuo de Beam Blank alimentado com 
duas válvulas submersas tubulares. 2016. Dissertação (Mestrado Engenharia de 
Materiais) - Escola de Minas, Universidade Federal de Ouro Preto, Ouro Preto, 2016. 
75 
RACKERS, K G; THOMAS, B G. Clogging in Continuous Casting Nozzles. In: 
STEELMAKING CONFERENCE. 78., 1995. Proceedings... [S.l.]: Iron and Steel 
Society, 1995. v. 78, p. 723–734. 
RAMOS, Leandro et al. Geração semiautomática de valores de referência para 
identificação de obstruções em lingotamento contínuo. In: SEMINÁRIO INTEGRADO 
DE SOFTWARE E HARDWARE. 47., 2020. Anais... Porto Alegre: SBC, 2020. p. 
116–127. Disponível em: https://sol.sbc.org.br/index.php/semish/article/view/11322. 
RODPONGPUN, Sura; NIENNATTRAKUL, Vit; RATANAMAHATANA, Ann. Selective 
Subsequence Time Series clustering. Knowledge-Based Systems, v. 35, p. 361–
368, 2012. 
ROUSSEEUW, Peter J. Silhouettes: A graphical aid to the interpretation and 
validation of cluster analysis. Journal of Computational and Applied Mathematics, 
v. 20, p. 53–65, 1987. ISSN 0377-0427. Disponível em: 
http://www.sciencedirect.com/science/article/ pii/0377042787901257. 
ROUT, Bapin Kumar et al. Development and application of nozzle clogging index to 
improve the castabilty in continuous slab casting. In: INTERNATIONAL 
CONFERENCE ON ADVANCES IN REFRACTORIES AND CLEAN STEEL 
MAKING. 2013. Proceedings… [S.l.: s.n.], 2013. v. 13. 
SALA, Davi Alberto et al. Multivariate Time Series for Data-Driven Endpoint 
Prediction in the Basic Oxygen Furnace. In: IEEE INTERNATIONAL CONFERENCE 
ON MACHINE LEARNING AND APPLICATIONS (ICMLA). 17., 2018. 
Proceedings… [S.l.]: IEEE, 2018. p. 1419–1426. ISBN 978-1-5386-6805-4. 
SETTLES, Burr. Active Learning Literature Survey. [S.l.: s.n.], 2009. 
THOMAS, Brian G; BAI, Hua. Tundish Nozzle Clogging-Application Of Computational 
Models. In: PROCESS TECHNOLOGY DIVISION CONFERENCE. 18., 2001. 
Proceedings... [S.l.]: Iron and Steel Society, 2001. v. 18. 
VANNUCCI, Marco et al. Detection of rare events within industrial datasets by means 
of data resampling and specific algorithms. International Journal of Simulation: 
Systems, Science and Technology, v. 11, n. 3, p. 1–11, 2010. ISSN 14738031. 
VANNUCCI, Marco; COLLA, Valentina. Novel classification method for sensitive 
problems and uneven datasets based on neural networks and fuzzy logic. In: 
Applied Soft Computing Journal. [S.l.: s.n.], 2011. v. 11, n. 2, p. 2383–2390. 
WANG, Bo; TU, Z.; TSOTSOS, John. Dynamic label propagation for semi-supervised 
multi-class multi-label classification. [S.l.: s.n.], 2013. v. 52, p. 425–432. 
WANG, Fei et al. Wavelet decomposition and convolutional lstm networks based 
improved deep learning model for solar irradiance forecasting. Applied Sciences, 
MDPI AG, Basel, v. 8, n. 8, 2018. ISSN 20763417. Disponível em: 
http://search.proquest.com/docview/2322347826/. 
76 
WANG, Ruibin et al. Development of quantitative indices and machine learning-
based predictive models for sen clogging. In: THE IRON & STEEL TECHNOLOGY 
CONFERENCE. 2021. Proceedings... [S.l.: s.n.], 2021. 
WOOLDRIDGE, Jeffrey. Introductory econometrics: a modern approach. 5. ed. 
Mason, Ohio: South-Western Cengage Learning, 2012. 881 p. Disponível em: 
https://search.library.wisc.edu/catalog/9910154038602121. 
YE, Lexiang; KEOGH, Eamonn. Time series shapelets: a novel technique that allows 
accurate, interpretable and fast classification. Data Mining and Knowledge 
Discovery, New York, v. 22, n. 1-2, p. 149–182, 2011. ISSN 13845810. Disponível 
em: http://search.proquest.com/docview/822711684/. 
YUAN, Fangming et al. Online forecasting model of tundish nozzle clogging. Journal 
of University of Science and Technology Beijing: Mineral Metallurgy Materials 
(Eng Ed), No longer published by Elsevier, v. 13, n. 1, p. 21–24, feb. 2006. ISSN 
10058850. 
ZHANG, Lifeng; WANG, Yufeng; ZUO, Xiangjun. Flow transport and inclusion motion 
in steel continuous-casting mold under submerged entry nozzle clogging condition. 
Metallurgical and Materials Transactions B: Process Metallurgy and Materials 
Processing Science, Springer US, v. 39, n. 4, p. 534–550, aug. 2008. ISSN 
10735615. 
ZHANG, Xuxu et al. A novel sampling strategy for active learning over evolving 
stream data. In: INTERNATIONAL CONFERENCE ON COMPUTER 
ENGINEERING, INFORMATION SCIENCE AND APPLICATION TECHNOLOGY 
(ICCIA 2017). 2., 2017. Proceedings… Atlantis Press, 2016/17. p. 336–342. 
Disponível em: https://doi.org/10.2991/iccia-17.2017.57. 
ZHOU, Dengyong et al. Learning with local and global consistency. In: ADVANCES 
in Neural Information Processing Systems 16. [S.l.]: MIT Press, 2004. p. 321–328. 
ZHU, Xiaojin; GHAHRAMANI, Zoubin. Learning from Labeled and Unlabeled Data 
with Label Propagation. Pittsburgh, PA: [s.n.], 2002. 
ZOLHAVARIEH, Seyedjamal; AGHABOZORGI, Saeed; TEH, Ying Wah. A review of 
subsequence time series clustering. Scientific World Journal, Hindawi, v. 2014, jul. 
2014. ISSN 1537744X.