INSTITUTO FEDERAL DO ESPÍRITO SANTO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA LEANDRO RODRIGUES RAMOS DETECÇÃO DE OBSTRUÇÃO EM MÁQUINAS DE LINGOTAMENTO CONTÍNUO PELA ANÁLISE DE SÉRIES TEMPORAIS MULTIVARIADAS Serra 2019 LEANDRO RODRIGUES RAMOS DETECÇÃO DE OBSTRUÇÃO EM MÁQUINAS DE LINGOTAMENTO CONTÍNUO PELA ANÁLISE DE SÉRIES TEMPORAIS MULTIVARIADAS Dissertação apresentada ao Programa de Pós- graduação em Computação Aplicada do Instituto Federal do Espírito Santo, Campus Serra, como re- quisito parcial para a obtenção do título de Mestre em Computação Aplicada - Inteligência Artificial. Orientador: Prof. Dr. Jefferson O. Andrade. Orientador: Prof. Dr. Francisco de Assis Boldt. Serra 2019 Dados Internacionais de Catalogação na Publicação (CIP) R175d Ramos, Leandro Rodrigues 2019 Detecção de obstrução em máquinas de lingotamento contínuo pela análise de séries temporais multivariadas / Leandro Rodrigues Ramos. - 2019. 76 f.; il.; 30 cm Orientador: Prof. Dr. Jefferson Oliveira Andrade. Orientador: Prof. Dr. Francisco de Assis Boldt. Monografia (graduação) - Instituto Federal do Espírito Santo, Coordenadoria de Informática, Curso de Bacharelado em Sistemas de Informação, 2019. 1. Aço - Indústria. 2. Aprendizado do computador. 3. Processos de fabricação. 4. Usinas siderúrgicas. 5. Fundição contínua. I. Andrade, Jefferson Oliveira. II. Boldt, Francisco de Assis. III. Instituto Federal do Espírito Santo. IV. Título. CDD 669 Bibliotecária Rogeria Gomes Belchior - CRB6/ES 417 RESUMO Obstruções das válvulas submersas no processo de lingotamento contínuo aumentam a frequência de interrupções na operação, seja para troca de válvulas, de distribuidores ou até mesmo provocando uma parada completa da máquina. Estas transições extras elevam o custo operacional, reduzem a produtividade da planta e podem provocar uma variedade de problemas de qualidade. A ausência de conjuntos de dados rotulados para as obstruções tem restringido a aplicação de métodos de aprendizado de máquina para predição desta anomalia no processo. Este trabalho buscou desenvolver técnicas semiautomáticas de rotulação de conjuntos de dados de referência. Para identificação do problema foram extraídas características de séries temporais multivariadas que poderiam caracterizar o fenômeno. Tais características foram utilizadas em sequências de clusterizações, combinadas em diferentes espaços dimensionais, fazendo uso do algoritmo DBSCAN (Density Based Spatial Clustering of Applications with Noise). Os clusters gerados foram usados como sementes para um processo semi-supervisionado de propagação de rótulos. Este processo gerou uma base de dados que foi validada por especialistas e 100% dos dados rotulados como obstruções foram considerados corretamente rotulados. No contexto de aprendizado de máquina, a inexistência de rótulos nos dados implica no uso de técnicas não supervisionadas, com poucos exemplos de rótulos os métodos semi-supervisionados são aplicáveis, já com o conjunto de dados tendo os rótulos devidamente validados permite-se o uso de algoritmos preditores supervisionados (classificadores ou regressores). Sendo assim, foi possível em sequência desenvolver um modelo classificador multiclasse que pudesse identificar situações de operação normal, obstruções e outras anomalias em tempo de lingotamento. Palavras-chave: Lingotamento contínuo. Obstrução. Clusterização. Aprendizado de máquina. ABSTRACT Clogging of submerged entry nozzles (SEN) in the continuous casting process increase the frequency of operational interruptions, whether for changing valves, tundish or even causing a complete machine shutdown.These extra transictions drive up the cost, reduce productivity and can cause a variety of quality issues.The absence of data sets labeled for clogging has restricted the application of machine learning methods for predicting this anomaly. This work sought to develop semiautomatic techniques for labeling reference data sets. To identify the problem were extracted features of multivariate time series that could identify the phenomenon. These features were used in clustering sequences, in different dimensional spaces, using the Density Based Spatial Clustering of Applications with Noise Algorithm (DBSCAN). The generated clusters were used as seeds for a semi- supervised label propagation process. This process generated a database that was validated by specialists and 100% of the data labeled as obstructions were considered correctly labeled. In machine learning the lack of labels in the data implies the use of unsupervised techniques, with just a few examples of labels the semi- supervised methods are applicable, on the other hand, with the data set having the labels properly validated, the use of supervised algorithms (classifiers or regressors) became allowed. Therefore, it was possible to develop a multiclass classifier model that could identify situations of normal operation, clogging and other process anomalies during the casting time. Keywords: Continuos casting. Clogging. Clustering. Machine learning. LISTA DE FIGURAS Figura 1 – Obstrução (clog) em válvula submersa. ................................................ 11 Figura 2 – Pontos geradores de obstrução. ........................................................... 12 Figura 3 – Obstrução típicas em válvulas com 2 furos de saída. ........................... 13 Figura 4 – Extração de características em séries temporais. ................................. 15 Figura 5 – Resultados do classificador multiclasse em intervalo de tempo do processo. .............................................................................................. 17 Figura 6 – Pipeline de criação dos datasets e os modelos de clusterização e classificação. ........................................................................................ 18 Figura 7 – Componentes de Séries Temporais. ..................................................... 21 Figura 8 – Remoção de não estacionariedade em uma série temporal. ................ 22 Figura 9 – Série temporal univariada...................................................................... 23 Figura 10 – Série temporal multivariada. ................................................................... 23 Figura 11 – Clusterização de séries temporais. ........................................................ 25 Figura 12 – Exemplo de clusterização de subsequências em séries temporais. ....... 27 Figura 13 – Identificação de clusters e detecção de anomalias. ............................... 29 Figura 14 – Grafo 1: Exemplo de propagação de rótulos. ......................................... 32 Figura 15 – Obtenção de novos rótulos: Yt+1 ← T × Yt. ........................................... 33 Figura 16 – Grafo 2: Exemplo de propagação de rótulos. ......................................... 33 Figura 17 – Ciclo do Active Learning - Pool-based Sampling.................................... 35 Figura 18 – Séries temporais da velocidade de lingotamento e posição do ‘tampão”. .............................................................................................. 40 Figura 19 – Visão esquemática do sistema distribuidor-molde. ................................ 40 Figura 20 – Sinais contínuos do processo................................................................. 42 Figura 21 – Discretização de séries temporais. ......................................................... 43 Figura 22 – Geração de identificador para as janelas de tempo (código python). ..... 43 Figura 23 – Unicidade de identificador demonstrada em 3 janelas de 5 minutos (código python). .................................................................................... 44 Figura 24 – Evolução da obstrução. .......................................................................... 45 Figura 25 – Janela de obstrução e escolha de características das séries................. 45 Figura 26 – Exemplos das 59 características finais extraídas em sinais do veio 3. .. 47 Figura 27 – Pipeline para identificação de rótulos. .................................................... 47 Figura 28 – Exemplo de janela sobre os sinais do processo. .................................... 49 Figura 29 – Extração de características nos sinais em janela deslizante. ................. 50 Figura 30 – Clusterização inicial (Outliers x Operação normal). ................................ 54 Figura 31 – Elementos pertencentes aos clusters de operação normal. ................... 55 Figura 32 – Clusterização inicial (Outliers x Operação normal). ................................ 55 Figura 33 – Amostras de outliers separadas com a distância de Mahalanobis. ........ 56 Figura 34 – Clusterização dos outliers. ..................................................................... 57 Figura 35 – Propagação de rótulos: Sem rótulos(-1), Norma(0), Anomalias conhecidas(3), Obstruções(7). ............................................................. 60 Figura 36 – Active Learning - Distribuição final das classes...................................... 61 Figura 37 – Seletor de classes - queries enviadas ao oráculo. ................................. 62 Figura 38 – Identificação de Obstruções. .................................................................. 63 Figura 39 – Identificação de “anomalias conhecidas”. .............................................. 63 Figura 40 – Protótipo para visualização das obstruções sequenciadas no tempo. ... 65 Figura 41 – Complexidade de classificação nas regiões de "fronteira". .................... 68 Figura 42 – Rede CNN para extração de características combinadas com um preditor LSTM....................................................................................... 69 SUMÁRIO 1 INTRODUÇÃO ................................................................................................. 9 1.1 CONTEXTUALIZAÇÃO .................................................................................... 9 1.2 PROBLEMA .................................................................................................... 12 1.3 PROPOSTA .................................................................................................... 15 1.4 OBJETIVOS .................................................................................................... 17 1.4.1 Objetivo Geral ............................................................................................... 17 1.4.2 Objetivos Específicos................................................................................... 18 1.5 ORGANIZAÇÃO DO TRABALHO ................................................................... 19 2 REFERENCIAL TEÓRICO ............................................................................ 20 2.1 SÉRIES TEMPORAIS..................................................................................... 20 2.2 EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES TEMPORAIS ................. 24 2.3 IDENTIFICAÇÃO DE ANOMALIAS POR MÉTODO NÃO SUPERVISIONADO........................................................................................ 26 2.4 DENSITY-BASED SPATIAL CLUSTERING OF APPLICATIONS WITH NOISE (DBSCAN) .......................................................................................... 28 2.5 PROPAGAÇÃO DE RÓTULOS ...................................................................... 29 2.6 MÉTODO SEMI-SUPERVISIONADO DE APRENDIZADO (ACTIVE LEARNING) .................................................................................................... 34 3 MATERIAIS E MÉTODOS .............................................................................. 39 3.1 BASE DE DADOS........................................................................................... 39 3.2 FUNDAMENTOS PARA EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES ........................................................................................................... 41 3.3 MODELAGEM ................................................................................................ 47 4 EXPERIMENTOS, RESULTADOS E DISCUSSÃO ....................................... 53 4.1 CLUSTERIZAÇÃO .......................................................................................... 53 4.2 PROPAGAÇÃO DE RÓTULOS E ACTIVE LEARNING .................................. 57 4.3 APRENDIZADO SUPERVISIONADO PARA DETECÇÃO DE OBSTRUÇÃO ................................................................................................. 64 4.4 IDENTIFICAÇÃO DE OBSTRUÇÕES POR ANÁLISE DE SÉRIES TEMPORAIS ................................................................................................... 67 4.5 ANÁLISE DOS RESULTADOS ....................................................................... 69 5 CONSIDERAÇÕES FINAIS E CONCLUSÃO ................................................ 71 5.1 TRABALHOS FUTUROS ................................................................................ 72 REFERÊNCIAS .............................................................................................. 73 9 1 INTRODUÇÃO 1.1 CONTEXTUALIZAÇÃO Lingotamento contínuo é o processo pelo qual o metal fundido é solidificado em um produto semi-acabado, no caso deste trabalho em formato de placa (PEIXOTO, 2016). O aço líquido é transferido do distribuidor para o molde por meio de um canal que é conhecido como válvula submersa. O aço é moldado e solidificado de maneira progressiva da superfície para o núcleo do veio (cada saída do lingotador). Em função de alguns fatores tais como a temperatura do aço líquido, temperatura do canal refratário, abertura e aquecimento da válvula, durante este vazamento ocorre, ocasionalmente, uma solidificação rápida e prematura, obstruindo o fluxo de aço do distribuidor para o molde. Este fenômeno é denominado obstrução de válvulas submersas e se caracteriza como um dos problemas principais no lingotamento contínuo de aço. Primeiramente, obstruções aumentam a frequência de interrupções na operação, seja para troca de válvulas, de distribuidores ou até mesmo provocando uma parada completa da máquina. A injeção de gás argônio é uma técnica metalúrgica para formar uma cortina de gás que separa o fluxo do aço líquido da superfície refratária e que pode ser utilizada na prevenção e redução da obstrução. Todas estas ações elevam o custo operacional, reduzem a produtividade da planta e podem provocar uma variedade de problemas de qualidade. O fluxo de aço líquido é controlado por um dispositivo de válvula gaveta, baseado no princípio de deslocamento paralelo de uma placa refratária, dotada de um orifício, entre duas outras, alinhando a abertura da placa móvel com os orifícios das placas fixas. A obstrução muda os padrões de fluxo e as características dos jatos de aço que saem das válvulas, que podem interromper o fluxo no molde, levando a defeitos de superfície nos produtos de aço e até mesmo rompimentos (breakouts). As obstruções uma vez desalojadas também perturbam o fluxo, ficando presas no aço ou alterando a composição do mesmo, sendo que em ambos os casos originam defeitos. Problemas de qualidade também surgem dos transientes do nível do molde que ocorrem quando o dispositivo de controle de fluxo compensa o entupimento (THOMAS; BAI, 2001). 10 A Figura 1 caracteriza a obstrução (clog) em válvula submersa (SEN do inglês Submerged Entry Nozzle), através do acúmulo de material no fluxo de aço (liquid steel) entre distribuidor (tundish) e o molde (cooper mold). Rackers e Thomas (1995) detalha como consequências da obstrução:  Redução de produtividade. Para compensar a obstrução, o dispositivo de controle de fluxo (por exemplo, comportas deslizantes acionadas por controladores PID) deve ser ainda mais aberto. Se o entupimento se tornar suficientemente severo, o dispositivo de controle de fluxo não será mais capaz de compensar. Com isto, uma diminuição na velocidade de lingotamento se faz necessária ou até mesmo a substituição da válvula. Esses eventos reduzem o rendimento da máquina e, portanto, reduzem a produtividade.  Elevação dos custos. Dependendo da planta, algumas porções das válvulas obstruídas podem ser substituídas independentemente durante o lingotamento. Outras porções entupidas podem apenas ser substituídas pela mudança do distribuidor. Portanto, a obstrução resulta em custos adicionais para a recondicionamento do distribuidor, bem como para a substituição das válvulas.  Redução da qualidade. Partículas não metálicas, provenientes do acúmulo nas obstruções, podem ser desalojadas e resultar em impurezas inaceitáveis no produto, especialmente em aplicações de aços especiais. A restrição no fluxo de passagem também pode provocar padrões de fluxos indesejáveis no molde, provocando problemas de qualidade (por exemplo, ingestão de material fluxante no molde ou afinamento de pele). 11 Figura 1 – Obstrução (clog) em válvula submersa. Fonte: Rackers e Thomas (1995). O material de obstrução mais comumente observado é o óxido de alumínio (Al3O2), também conhecido como alumina. A obstrução por este tipo de material pode ser causada por aglomeração, precipitação e aspiração de ar através da válvula (CRAMB; RASTOGI; MADDELENA, 1999). A Figura 2 ilustra diferentes fontes que podem causar o problema de obstrução em válvulas submersas, dentre elas:  Ponto 1: arraste de escória da panela de aço que carrega o distribuidor. Com a diminuição do nível de aço, a escória na superfície da panela pode ser sugada pela válvula, o que conduz inclusão junto com banho.  Pontos 2, 3, 5: arraste de ar atmosférico através do sistema cone-válvula longa, abertura na tampa e sistema distribuidor-molde respectivamente.  Ponto 4: desgaste do refratário do distribuidor.  Ponto 6: variação do nível de aço do molde.  Ponto 7: abertura de panela sem imersão de válvula longa. 12 Figura 2 – Pontos geradores de obstrução. Fonte: Adaptado de Cramb, Rastogi e Maddelena (1999). Outros fatores como composição química (elementos exógenos) e a baixa temperatura do aço líquido, resultando em menor capacidade de flotar inclusões, também são agravantes para geração de obstrução. 1.2 PROBLEMA O lingotamento contínuo tem se consolidado como a forma mais importante para a produção de aço atualmente. Devido aos componentes físicos, mecânicos e químicos envolvidos na produção, o lingotamento contínuo é um processo bastante complexo, levando os métodos convencionais de monitoramento e controle ao seu limite (CEMERNEK et al., 2021). A obstrução das válvulas contribui fortemente para os problemas de qualidade observados durante o processo de lingotamento contínuo. A presença de obstruções nos Bicos de Entrada Submersos (SEN) pode alterar significativamente os padrões de fluxo no molde e, portanto, impactar a qualidade do produto (ABOUELAZAYEM et al., 2020). O fenômeno de obstrução das válvulas é difícil de ser caracterizado. Isto se dá pelo elevado número de fatores químicos e de processo que afetam a ocorrência de precipitação de materiais na 13 superfície interna das válvulas, bem como pela impossibilidade de se instalar sistemas de sondas e sensores, a fim de observar de perto o fenômeno em si (VANNUCCI; COLLA, 2011; ABOUELAZAYEM et al., 2020). A Figura 3 apresenta observações industriais dos pontos típicos de entupimento nas paredes das válvulas submersas. Figura 3 – Obstrução típicas em válvulas com 2 furos de saída. Nota: Corte central b) saída do furo c) parede interna. Fonte: Zhang, Wang e Zuo (2008). Neste cenário de produção de aço, temos processos altamente complexos, onde nem todas as variáveis de entrada e suas correlações são conhecidas e as condições ambientais podem mudar com o tempo. Por outro lado, decisões de processo muitas vezes são tomadas pelos operadores, baseadas em seus conhecimentos e experiência (OMETTO et al., 2019). A obstrução bem como outros eventos de qualidade que são considerados críticos não possuem acurácia em seu registro, podendo-se desclassificar produtos que são consideradas incompatíveis com diversas aplicações de aço. O registro do problema baseado nas percepções e reações do operador pode levar a desclassificações inadequadas e perde-se precisão no que diz respeito à área afetada no produto. Uma identificação com maior precisão do tempo de ocorrência do problema e respectiva região afetada durante o lingotamento poderia servir de subsídio para os modelos de otimização de corte das placas, bem como para o processo decisório em relação à desclassificação do produto que está sendo produzido. 14 Usinas siderúrgicas modernas estão gerando grande volume de dados devido ao aumento no nível de sensoriamento nas plantas industriais, associado a novos tipos de fontes de dados não estruturados (vídeos e áudios), bem como bases de dados temporais dedicadas a historiar milhares de sinais de processo. Incluir modelos de aprendizado de máquina nos sistemas de automação e controle, oriundos da análise destes dados, vem se tornando primordial na estratégia das organizações visando otimizar seus processos produtivos. A modelagem matemática deste problema vem sendo desenvolvida por diferentes abordagens. Yuan et al. (2006) buscaram uma modelagem fenomenológica, podendo ser aplicada de forma online no processo, fazendo uso de equações hidrodinâmicas. Ometto et al. (2019) utilizando um conjunto de dados históricos expressivo (4 anos com aproximadamente 21.000 corridas de aço), propõem um classificador baseado em árvores de decisão e Gradient Boosting (NATEKIN; KNOLL, 2013) para aproximar a relação não-linear entre a lista dos preditores e a variável alvo (obstrução). Vannucci et al. (2010) e Vannucci e Colla (2011) em seus trabalhos fazem uma combinação de técnicas clássicas envolvendo Perceptron de múltiplas camadas (MLP do inglês Multilayer Perceptron), e árvores de decisão, dentre outras, objetivando detectar o problema. Para os modelos de classificação citados, a acurácia na detecção oscilou entre 74% e 80%. Variáveis estáticas do processo foram utilizadas como, por exemplo, composição química do banho, e tendo a percepção do problema somente a nível da corrida de lingotamento. Em uma corrida de lingotamento contínuo, o aço presente no distribuidor origina diversas placas (produto lingotado), sendo que a obstrução pode ocorrer somente em parte deste processo. A identificação do problema no nível de corrida pode ser relevante para as equipes de operação pois sinaliza se a mesma está propensa a ter obstrução ou não. Porém, para a metalurgia é relevante identificar com maior precisão (no tempo) em que trecho da placa (ou placas) lingotada ocorre o evento de obstrução, evitando assim a desclassificação de produtos de maneira inadequada. Para o intervalo de análise deste trabalho pode-se observar a incidência do fenômeno de obstrução em aproximadamente 10% dos trechos das placas lingotadas (sendo 4,94% no 1º veio e 14,85% no 2º veio da máquina de lingotamento). 15 1.3 PROPOSTA A hipótese deste trabalho assume que é possível detectar com acuracidade os eventos de obstrução no processo de lingotamento contínuo, através da análise de sinais e controles dinâmicos da linha, proveniente de sensores e indexados no tempo (séries temporais multivariadas). A proposta deste trabalho está baseada em um modelo de análise descrito por Sala et al. (2018). Os sinais do processo produtivo são historiados em bases de dados temporais e podem ser representados por séries temporais multivariadas. Busca-se avaliar estas séries, utilizando técnicas para extração e seleção de suas características (CHRIST et al., 2018) em subsequências no tempo. A Figura 4 exemplifica algumas destas características que serão extraídas de dados brutos das séries como média (mean), mediana (median), mínimos e máximos, picos (number peaks) dentre outras. Pelo fato de originalmente não termos uma base de dados rotulada, o pipeline de análise proposto por Sala et al. (2018) foi adaptado conforme ilustrado na Figura 6, incluindo algoritmos de aprendizado de máquina não supervisionados (clusterização) e técnicas semiautomáticas de propagação de rótulos de forma a caracterizar as subsequencias no tempo como normais ou anômalas, e consequentemente gerando-se os rótulos (labels) em todo o conjunto de dados. Figura 4 – Extração de características em séries temporais. Fonte: Christ et al. (2018). 16 Vale ressaltar a importância desta etapa de rotulação, pois não existia essa informação na base de dados da siderúrgica alvo deste trabalho. Foram testados vários modelos estatísticos diferentes, visando identificar e agrupar anomalias nas séries temporais. Como ponto de partida, uma “semente” inicial de dados “anômalos” (referentes a obstrução) foi rotulada manualmente por especialistas do processo. Em seguida um processo de “transbordamento” de rótulos foi aplicado a este conjunto de obstruções bem como a um conjunto inicial de dados representando “anomalias conhecidas” (ex: troca de válvulas), que por sua vez foram separadas durante as etapas de clusterização e também devidamente identificadas pelos especialistas. Durante o processo de propagação, novas amostras de casos de operação normal, obstruções e anomalias conhecidas foram rotuladas através de uma análise visual, porém a necessidade de inferência humana foi minimizada pela estratégia de seleção de amostras do método de aprendizado ativo (semi-supervisionado) ao qual será detalhado neste trabalho. De posse da base rotulada, foi construído um modelo classificador (multiclasse) que recebe como entrada as características extraídas dos sinais temporais (TS model) em janelas de tempo de 5 minutos. A variável alvo indica probabilidades de três classes de operação durante este intervalo, sendo elas: Lingotamento normal (classe 0), anomalias conhecidas como troca de válvulas e parada de máquina (classe 3) ou lingotamento com obstrução (classe 7). A Figura 5 ilustra os resultados desta classificação em um trecho do processo onde foram lingotadas 6 placas. A primeira placa, identificada pelo sistema de MES da planta como “229855306”, estava sendo lingotada em condições normais (classe 0) mas aos 5 minutos finais do seu tempo de lingotamento detectou-se uma alta probabilidade de ocorrência do fenômeno de obstrução (classe 7). O provável evento de obstrução perdurou por duas placas onde na sequência foi detectada probabilidade de anomalia conhecida (classe 3), indicando uma operação de troca de válvula para desobstruir o sistema. O processo se normaliza na placa “229856604” onde as janelas de 5 minutos que incidiram sobre o seu período de lingotamento apresentaram alta probabilidade de operação normal (classe 0). 17 Figura 5 – Resultados do classificador multiclasse em intervalo de tempo do processo. Fonte: Elaborado pelo Autor (2021). 1.4 OBJETIVOS A inexistência de um conjunto representativo de dados rotulados é uma realidade em plantas industriais, sendo inicialmente o principal impeditivo para avançar com o treinamento de modelos de aprendizado de máquina que possam ser aplicados ao problema investigado. Nesse contexto, enunciamos nas seções abaixo os objetivos geral e específicos do trabalho realizado, onde busca-se construir as condições necessárias para que um mecanismo de detecção dos eventos de obstrução em máquinas de lingotamento contínuo fosse desenvolvido. 1.4.1 Objetivo Geral O objetivo geral deste trabalho é avaliar o uso de técnicas de aprendizado ativo e análise de séries temporais multivariadas para o desenvolvimento de um modelo de detecção de eventos de obstrução de lingotamento contínuo. 18 Figura 6 – Pipeline de criação dos datasets e os modelos de clusterização e classificação. Fonte: Adaptado de Sala et al. (2018). 1.4.2 Objetivos Específicos 1. Desenvolver técnicas de aprendizado ativo para rotulação dos eventos de obstrução de lingotamento contínuo no conjunto de dados “bruto”. 2. Gerar um conjunto de dados com os eventos de obstrução de lingotamento contínuo rotulados. 3. Desenvolver modelos de predição de séries temporais multivariadas para detecção de eventos de obstrução de lingotamento contínuo. 4. Avaliar resultados dos modelos e respectivos parâmetros aplicados. 5. Desenvolvimento de aplicações preliminares para suporte aos times de operação e metalurgia no entendimento do fenômeno de obstrução. 19 1.5 ORGANIZAÇÃO DO TRABALHO O presente trabalho está dividido em 5 capítulos. Este Capítulo 1 traz uma contextualização do tema abordado, a justificativa para sua realização, os objetivos pretendidos e a forma de como o trabalho foi organizado. No Capítulo 2 são levantados os conceitos para a compreensão deste trabalho e um descritivo das principais técnicas a serem utilizadas. Em seguida, o Capítulo 3 traz os materiais e a metodologia a ser aplicada para se atingir o objetivo desejado, que envolve a identificação de obstruções em válvulas submersas. No Capítulo 4 descrevem-se os experimentos realizados, apresentam-se e discutem- se os resultados obtidos. Por fim, no Capítulo 5, apresenta-se as considerações finais e a conclusão deste trabalho. 20 2 REFERENCIAL TEÓRICO Neste capítulo são levantados os conceitos para a compreensão deste trabalho. Inicialmente, descreve-se séries temporais e métodos de extração de características de forma sequencial sobre as mesmas. Destacam-se os métodos de aprendizado de máquina não supervisionados e técnicas semi-supervisionadas para propagação de rótulos. O termo semi-supervisionado é utilizado neste trabalho para se referir a um processo interativo com etapas não supervisionadas, seguidas de etapas com supervisão manual. 2.1 SÉRIES TEMPORAIS Uma série temporal é uma sequência de observações tomadas sequencialmente no tempo (BOX et al., 2016). Para Wooldridge (2012), uma série temporal é um conjunto de observações ordenadas no tempo e que apresentam dependência serial, isto é, dependência entre instantes de tempo. Ambas definições ressaltam características relevantes como a existência de uma ordenação natural no tempo dos dados observados, onde tipicamente estes valores não são independentes. A série temporal é a realização de um processo estocástico, sendo não determinística por natureza. Em geral a análise destas séries consiste em examinar um conjunto de dados ao longo do tempo de forma a estimar modelos matemáticos que possivelmente expliquem o comportamentos deste conjunto. A série temporal é afetada por quatro componentes principais e que podem ser separadas dos dados observados:  Tendência: A tendência de uma série indica o seu comportamento no longo prazo, isto é, se ela cresce, decresce ou permanece estável, e qual a velocidade destas mudanças (MORETTIN P. A.; TOLOI, 1987).  Ciclo: São caracterizados pelas oscilações de subida e de queda nas séries, de forma suave e repetida, ao longo da componente de tendência.  Sazonalidade: Corresponde às oscilações de subida e de queda (em torno da média) que se repetem sistematicamente em um determinado período. Os 21 movimentos sazonais são mais previsíveis que os cíclicos, que por sua vez tendem a ser irregulares.  Componentes irregulares: As variações irregulares representam descolamentos esporádicos das séries temporais, provocadas por eventos imprevisíveis e não periódicos denominados ruídos. A Figura 7 ilustra um exemplo de decomposição de série temporal através do método Seasonal-trend decomposition procedure based on Loess (STL) (CLEVELAND et al., 1990), dando visibilidade da tendência, sazonalidade e componentes irregulares (ruído). Figura 7 – Componentes de Séries Temporais. Nota: Decomposição da série (Data) em tendência (Trend), sazonalidade (Seasonal) e ruído (Remainder ). Fonte: Cleveland et al. (1990). 22 Outra característica marcante no estudo das séries temporal é a estacionariedade. Uma série temporal é estacionária quando ela se desenvolve no tempo, de modo aleatório, ao redor de uma média constante, refletindo assim alguma forma de equilíbrio estável. Muitos modelos matemáticos, aplicados à solução de problemas envolvendo séries temporais, levam em consideração a estacionariedade dos dados. Na Figura 8 temos uma série contendo uma componente de tendência linear e com consequente variações na média ao longo do intervalo observado. Neste caso trata- se tipicamente de uma série não estacionária onde foi aplicada uma técnica da primeira diferença na série original, ∆Z(t) = Z(t) − Z(t − 1), trazendo os dados (ainda que aleatórios) para uma média constante. Como resultado têm-se uma nova série estacionária. Figura 8 – Remoção de não estacionariedade em uma série temporal. Nota: Aplicação da primeira diferença ∆Z(t) = Z(t − 1). Fonte: Elaborado pelo Autor (2021) Uma série temporal é denominada univariada X = [x1, x2, x3, ..., xT ] (Figura 9) quando representa uma sequência de medições da uma mesma variável (x) coletadas e indexadas em uma ordem temporal (1,2,3,...,T). 23 Figura 9 – Série temporal univariada. Nota: X1 = [x1, x2, x3, ..., xT ] Fonte: Elaborado pelo Autor (2021) Séries temporais multivariadas (Figura 10) são representadas por um conjunto D = de séries temporais univariadas (N =número de sinais), onde na melhor das hipóteses, possuem comprimento e taxas de amostragem iguais. Parece trivial analisar séries temporais multivariadas como uma extrapolação de séries temporais univariadas, no entanto, essa abordagem negligencia uma possível correlação entre os sinais. Figura 10 – Série temporal multivariada. Nota: XMV = [X1, X2, X3, ..., XN ] Fonte: Elaborado pelo Autor (2021) Vale ressaltar que nos últimos anos um número grande de novos algoritmos para classificação de séries temporais vendo sendo propostos na literatura. Como exemplos destes métodos temos a classificação com uso de extração de 24 características, Dynamic Time Warping (DTW), Time Series Forest, Shapelets (YE; KEOGH, 2011), COTE dentre outros. Bagnall et al. (2017) trás um extenso comparativo de vários destes algoritmos ensemble, porém usualmente aplicados a séries temporais univariadas. 2.2 EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES TEMPORAIS Para se usar séries temporais multivariadas como entrad1a para algoritmos de aprendizado de máquina supervisionados ou não supervisionados, cada série temporal Xi precisa ser mapeada em um espaço de características bem definidas de dimensionalidade M, por um vetor de características .= {xi,1, xi,2..., xi,M }. Em princípio, pode-se decidir mapear as séries temporais do conjunto D em uma matriz de N linhas e M colunas, escolhendo todos os M elementos de cada série temporal Xi como elementos do vetor . No entanto, do ponto de vista de identificação de padrões, uma abordagem é extrair das séries temporais características em relação à distribuição dos dados, propriedade de correlação, estacionariedade, entropia, e análise de não linearidade das séries. Portanto, o vetor de características . pode ser construído aplicando métodos de caracterização fj : Xi → xi,j para as respectivas séries temporais Xi, resultando em um vetor de características . = (f1(Xi), f2(Xi), ..., fM (Xi)). Este vetor de características pode ser estendido com inclusão de atributos univariados (CHRIST et al., 2018). Com este objetivo de extrair as características mais informativas dos dados de séries temporais, foram criados pacotes Python como o TSFresh (CHRIST et al., 2018) e Seglearn (BURNS; WHYNE, 2018). Como exemplo de características extraídas: 1. Estatísticas: mínimo, máximo, média, desvio padrão, assimetria, curtose, quartis dentre outras. 2. Básicas: comprimento, número de picos, crossings, contagem de valores. 3. Auto-correlação, energia, entropia, simetria, coeficientes FTT, coeficientes CWT dentre outras. 25 Jones et al. (2014) trazem uma abordagem denominada STT (do inglês, Statistical and Smoothed Trajectory) onde uma suavização das séries é realizada aplicando cálculo de média através de janelas deslizantes. Em sequência características como média, desvio padrão, média de diferença absoluta (|z(t) − z(t + )|) número de cruzamentos na média dividido pelo tamanho da janela dentre outras são extraídas. A Figura 11 mostra diferentes abordagens no tratamento de séries temporais para uso em técnicas de aprendizado de máquina, neste caso, algoritmos de clusterização. Figura 11 – Clusterização de séries temporais. Nota: Três abordagens baseando em: a) dados brutos b) extração de características c) modelagem. Fonte: Liao (2005). Uma abordagem faz uso direto do dados brutos das séries temporais (Figura 11 (a)), e a principal modificação em relação à técnica convencional se dá na substituição da medida de distância (ou similaridade) que se aplica a dados estáticos por uma medida apropriada para séries temporais. Outras abordagens convertem os dados brutos da série em vetores de características de menor dimensão ou em um conjunto de parâmetros de um modelo (Figura 11 (c)). Aplica-se então um algoritmo 26 convencional de clusterização sobre os vetores de características extraídos ou com os parâmetros dos modelos. Para este trabalho, vetores de características das séries temporais serão extraídos e utilizados, associados a algoritmos de clusterização (Figura 11 (b)). 2.3 IDENTIFICAÇÃO DE ANOMALIAS POR MÉTODO NÃO SUPERVISIONADO A clusterização é uma técnica de aprendizado não supervisionada que tem por objetivo identificar estruturas em um conjunto de dados não rotulados, organizando objetivamente os dados em grupos homogêneos, onde objetos de um grupo devem ser similares (ou relacionados) entre si, maximizando a dissimilaridade com objetos de outros grupos. De acordo com Liao (2005), os métodos de clusterização são divididos em categorias:  Métodos clássicos de particionamento: k-means, k-medoids, k-median.  Métodos hierárquicos: Por aglomeração (bottom-up) ou por divisão (top- down).  Métodos por modelagem: Mistura de Modelos Gaussianos, HMM (do inglês, Hidden Markov model), SOM (do inglês, Self organizing map), ART (do inglês, Adaptive resonance theory neural network).  Métodos baseados em Densidade e Grade (GRID): DBSCAN, OPTICS, STING, CLIQUE. Chandola, Banerjee e Kumar (2009) indicam o uso de métodos de clusterização para detecção de anomalias. A clusterização de séries temporais é uma atividade que vem sendo amplamente utilizada na comunidade de mineração de dados. No entanto, a maioria dos algoritmos executa a clusterização em toda a série temporal. Por outro lado, o agrupamento de subsequências em séries vem ganhando popularidade, sendo capaz de identificar clusters em subsequências de interesse em todo o fluxo de dados (RODPONGPUN; NIENNATTRAKUL; RATANAMAHATANA, 2012). 27 Define-se como uma subsequência de tamanho n em séries temporais X = [x1, x2, x3, ..., xT ] como Xi,n = [xi, xi+1, ..., xi+n−1], onde ≤ i ≤ T − n + n < T. A clusterização de subsequências em séries é ilustrada na Figura 12, considerando uma janela de tamanho n = 100. Figura 12 – Exemplo de clusterização de subsequências em séries temporais. b Fonte: Zolhavarieh, Aghabozorgi e Teh (2014). A análise exploratória dos métodos de clusterização para detecção de anomalias se faz necessária com o objetivo de endereçar o problema de interesse. Métodos clássicos (particionamento baseado em distância) possuem uma série de limitações para muitas aplicações, dentre elas: necessitam de conhecimento do domínio do problema para seleção dos parâmetros de entrada (escolha de k no k-means), mal adaptados para clusters não convexos, problemas de desempenho em datasets grandes e como mais agravante a incapacidade de lidar com outliers, ruídos e anomalias (todos os pontos são assinalados a um cluster ). A abordagem utilizada neste trabalho converte os dados brutos, presentes nas subsequências das séries, em vetores de características. Aplica-se então um algoritmo de clusterização adequado sobre estes vetores no intuito de separar em clusters distintos as janelas de operação normal (sem falhas) e situações anômalas 28 (pertubações ou interrupções) no processo de lingotamento contínuo, sendo ambos os conjuntos relevantes para suportar na rotulação dos dados em análise. 2.4 DENSITY-BASED SPATIAL CLUSTERING OF APPLICATIONS WITH NOISE (DBSCAN) DBSCAN, abreviação do termo (do inglês, Density Based Spatial Clustering of Application with Noise) é um método de clusterização não paramétrico baseado em densidade, que é efetivo na identificação de clusters com formato arbitrário e de diferentes tamanhos. Sendo também capaz de identificar e separar os ruídos dos dados e detectar clusters e seus arranjos dentro do espaço de dados, sem qualquer informação preliminar sobre os grupos. A noção de clusters e o algoritmo DBSCAN se aplicam para espaços Euclidianos de duas e três dimensões, como para qualquer espaço característico de alta dimensão (ESTER et al., 1996). Os autores do método salientam ainda que a abordagem trabalha com qualquer função de distância, de maneira que uma função apropriada pode ser escolhida para alguma dada aplicação. Para este trabalho usamos duas métricas de distância: a distância Euclidiana e a distância de Mahalanobis. A distância Euclidiana é definida por: (1) Sendo n o número de dimensões e pk e qk são, respectivamente, os k atributos (características) dos elementos p e q. A distância de Mahalanobis leva em consideração o quanto um ponto está distante de sua distribuição (clusters), se mostrando efetiva na caracterização dos outliers (noise). É definida por: (2) 29 onde C−1 é a inversa da matriz de covariância das variáveis independentes (q). O DBSCAN é composto por 2 parâmetros principais: ε(eps) que representa a distância máxima entre dois pontos para que sejam considerados vizinhos, e minPts que representa o número mínimo de pontos que caracteriza uma região densa e consequentemente um cluster. Se definirmos um valor baixo para este parâmetro corre-se o risco de se ter muitos cluster bem pequenos, no entanto, um valor muito grande pode impedir o algoritmo de criar clusters, terminando com um dataset composto apenas de anomalias. Busca-se por regiões de alta densidade assinalando clusters às mesmas, ao passo que pontos em regiões menos densas não são sequer incluídos nos clusters, sendo rotulados como anomalias (Figura 13). Entende-se como ponto, uma representação do espaço n-dimensional composto pelas características extraídas das subsequências nas séries temporais. Os clusters podem representar classes de operação normais (lingotamento normal, troca de panela, outros) e os outliers representar anomalias (lingotamento obstruído, trocas de válvula). Figura 13 – Identificação de clusters e detecção de anomalias. Fonte: Chandola, Banerjee e Kumar (2009). 2.5 PROPAGAÇÃO DE RÓTULOS Dados rotulados são essenciais para algoritmos de aprendizagem supervisionada. Entretanto, em cenários práticos os rótulos geralmente estão disponíveis em pequenas quantidades, enquanto os dados não rotulados podem ser abundantes. O 30 conceito de propagação de rótulos (label propagation) foi introduzido por Zhu e Ghahramani (2002) como uma proposição para geração de rótulos de uma forma iterativa, a partir de um conjunto de dados contendo regiões com alta densidade de elementos não rotulados. Dado um grafo ponderado finito G = (V, E, W ), formado por um conjunto de vértices V baseados em uma base de dados X = {xi | i ∈ [ ..n] um conjunto de arestas E = (V × V ) e uma função de ponderação w : E → [0, 1]. Se w(i, j) > 0, existe uma aresta entre xi e xj e w(i, j) corresponde a uma medida de similaridade entre os mesmos (WANG; TU; TSOTSOS, 2013). Considerando ρ como uma métrica de distância definida no grafo (usualmente euclidiana), a matriz de similaridade w pode ser construída conforme a Equação (3), para alguma função h com decaimento exponencial no infinito, e.g. h(x) = exp (−x). Os pesos são controlados pelo parâmetro σ. (3) Uma matriz de transição probabilística para os rótulos pode ser definida através da normalização da matriz de similaridades conforme a Equação (4). (4) Para este trabalho foi adotada uma abordagem de similaridade local (WANG; TU; TSOTSOS, 2013) onde um grafo KNN correspondente é construído, onde somente as arestas entre os nós e seus vizinhos são ponderadas, gerando a matriz w conforme a Equação (5). Com isto, gera-se a matriz KNN correspondente P, conforme a Equação (6). (5) (6) 31 O algoritmo de propagação é executado para uma base de dados X = {Xl Xu} onde Xl representa os dados rotulados e Xu os dados não rotulados, Y (l) é a matriz resposta de rótulos. O algoritmo a cada iteração realiza um clamping, ou seja, reinicia os valores dos rótulos conhecidos. Um fator de clamping (α) pode ser utilizado para permitir flexibilização dos rótulos iniciais. Digamos que α = 0 significa que serão retidos 80% da distribuição original dos rótulos. O Algoritmo 1, adaptado de (WANG; TU; TSOTSOS, 2013), demonstra este procedimento. Com o objetivo de ilustrar o método, considera-se o cenário apresentado pelo grafo na Figura 14. Temos 5 nós representando subseqûencias de séries temporais, ou seja, cada nó equivale a um ponto em um espaço n-dimensional, sendo n o total de características extraídas destes sinais. As arestas conectando dois nós carregam uma noção de similaridade entre os mesmos, medida por uma função de distância (Equação (3)) e normalizada em valores probabilísticos (entre 0 e 1) conforme equações (5) e (6). Isto implica que quanto mais próximos no espaço n-dimensional, mais provável de que os nós possuam o mesmo rótulo e consequentemente representem uma mesma condição no processo ao qual as séries que se referem. Neste exemplo temos os nós 1 e 2 previamente rotulados e pertencentes a classe 3 (coloração azul), o nó 3 também encontra-se rotulado com a classe 1 (coloração verde). Já os nós 4 e 5 (coloração vermelha) compõem o conjunto de dados não rotulados, onde a classe 0 representa a ausência de rótulo. 32 Figura 14 – Grafo 1: Exemplo de propagação de rótulos. Fonte: Elaborado pelo Autor (2021) O algoritmo promove a propagação dos rótulos para todos os nós baseando-se na proximidade dos mesmos, assim, os dados rotulados agem como fontes que “empurram” seus rótulos para os vizinhos não rotulados mais próximos (ZHU; GHAHRAMANI, 2002 ; ZHOU et al., 2004) . A formulação matemática para o método implica na construção de uma matriz de transição probabilística (T), que para este exemplo foi representada na Figura 15. A probabilidade do nó 1 transitar para seu próprio rótulo é 1 (100%), visto que trata-se de um nó originalmente rotulado. Consequentemente o nó 1 não pode transitar para rótulos dos demais nós (probabilidade 0). A mesma situação se repete para os nós 2 e 3. Entretanto é igualmente provável que o nó 4 (não rotulado) receba os rótulos dos nós 1 e 2, com uma probabilidade de 0,4 para cada nó e com probabilidade 0,1 de receber os rótulos dos nós 3 e 5. A probabilidade de transição do nó 5 em alguns casos é zerada em função de se utilizar o kernel KNN na função de probabilidade, eliminando assim a possibilidade de se receber rótulos de elementos “distantes” (ou não vizinhos). 33 Em uma primeira iteração multiplica-se a matriz de transição pelo vetor (Y ) contendo em suas linhas as classes ou rótulos binarizados (Yl), sendo que classe zero representa a ausência de rótulo (Yu). Obtém-se então novos rótulos xi ∈ Xu = argmax(Yu[i]). Observa-se pelas Figura 15 e Figura 16 que o nó 4, originalmente não rotulado, transita para a classe 3 (com argmax=0,8%), resultando em uma nova configuração para o grafo. Figura 15 – Obtenção de novos rótulos: Yt+ ← T × Yt. Fonte: Elaborado pelo Autor (2021) Figura 16 – Grafo 2: Exemplo de propagação de rótulos. Fonte: Elaborado pelo Autor (2021) 34 Nota-se também na Figura 15 que é possível dividir a matriz de transição T em quatro subconjuntos:  Tll : Probabilidade de transitar de nós rotulados (labelled) para nós rotulados (labelled).  Tlu : Probabilidade de transitar de nós rotulados (labelled) para nós não rotulados (unlabelled).  Tul : Probabilidade de transitar de nós não rotulados (unlabelled) para nós rotulados (labelled).  Tuu : Probabilidade de transitar de nós não rotulados (unlabelled) para nós não rotulados (unlabelled) (7) Tll será sempre uma matriz identidade e Tlu será uma matriz zero, visto que tratam- se de nós originalmente rotulados. Zhu e Ghahramani (2002) demonstram que para um número grande de iterações (limt T t→∞ ) o algoritmo iterativo converge para uma solução representada na Equação (7). A utilização deste algoritmo de propagação de rótulos, associado a uma técnica de aprendizado semi-supervisionada, promoveu uma aceleração significativa na geração de uma base de dados devidamente rotulada. O método trouxe também um melhor balanceamento nas classes de interesse para o problema, que por sua vez, possibilitou o desenvolvimento de modelos preditores supervisionados a serem utilizados na identificação de obstruções. 2.6 MÉTODO SEMI-SUPERVISIONADO DE APRENDIZADO (ACTIVE LEARNING) Os métodos de aprendizado de máquina supervisionados, que historicamente têm produzido os melhores resultados da literatura, extraem padrões importantes derivados de um conjunto de dados rotulado por especialistas humanos (CARDOSO 35 et al., 2017). Esses padrões são aplicados a novos dados, ainda não conhecidos pelo algoritmo, a fim de realizar a tarefa desejada. Entretanto, rotular amostras para treinamento e uso em métodos supervisionados é um processo custoso, seja devido à necessidade do conhecimento especializado bem como da natureza demorada desta atividade. Além disso, muitas vezes é necessário um grande número de instâncias rotuladas para obter uma taxa de erro aceitável nos modelos gerados. Por esta razão, usualmente nos deparamos em problemas nas organizações onde a variável resposta para os mesmos são escassas. Uma redução no esforço de criação de tais conjuntos de treinamento motivou a introdução de métodos semi-supervisionados intitulados na literatura como Active Learning (SETTLES, 2009). Esse tipo de técnica, ilustrada na Figura 17, seleciona e apresenta ao especialista (também chamado de oráculo) instâncias que devem ser rotuladas primeiro com base em uma estimativa do ganho de informações que podem trazer para o processo de aprendizagem geral. Este grupo de instâncias é chamado de consulta (query), pois requer respostas (leia-se rótulos) do oráculo. Após a rotulagem, tais instâncias são incorporadas ao conjunto de treinamento com a expectativa de aumentar rapidamente a eficácia do algoritmo de aprendizado (learner model). Figura 17 – Ciclo do Active Learning - Pool-based Sampling. Fonte: Settles (2009) 36 No contexto de Active Learning, existem cenários típicos ou configurações em que o algoritmo de aprendizado ativo (learner ) irá consultar os rótulos das instâncias. Como exemplos destes cenários podemos listar:  Membership Query Synthesis: Nesse caso, o algoritmo de aprendizado ativo gera uma nova instância não rotulada dentro do espaço de entrada (a partir de uma distribuição natural) e consulta o oráculo para rotulagem. Por exemplo, se os dados são imagens de dígitos, o algoritmo (learner ) criaria uma imagem semelhante a um dígito (pode ser girada ou com algum pedaço do dígito excluído) e essa imagem criada é enviada ao oráculo para rotular.  Stream-Based Selective Sampling: Nesta configuração amostras de dados não rotuladas são continuamente enviadas da fonte de dados para algoritmo de aprendizado ativo. O algoritmo deve decidir se pede ao oráculo para rotular uma instância ou rejeitá-la com base em sua informatividade. Uma estratégia de consulta é definida para se determinar a informatividade deste amostra.  Pool-based Sampling: Neste cenário, assume-se a existência de um pequeno conjunto de dados rotulados L e um grande conjunto de dados não rotulados U tal que |U| ≫ |L|. As instâncias são então retiradas do pool de acordo com alguma medida de informatividade, baseada em uma estratégia de consulta (Figura 17). Esta medida é aplicada a todas as instâncias no pool (ou algum subconjunto se o pool for muito grande) e, em seguida, as instâncias mais informativas são selecionadas. Este é o cenário mais comum na comunidade de Active Learning, sendo a abordagem escolhida para este trabalho. Percebe-se que todos os cenários de Active Learning requerem algum tipo de medida de informatividade das instâncias não rotuladas. Este processo de seleção de dados mais úteis e informativos pode ser feito por diferentes estratégias de amostragem. Uma estratégia comumente utilizada é a amostragem por incerteza, assim denominada devido ao uso de probabilidades em seu processo decisório. Fazendo uso da Tabela 1, exemplifica-se duas abordagens para esta estratégia: 37 Tabela 1 – Exemplo de amostras para uma estratégia de consulta. Fonte: Elaborado pelo Autor (2021)  Least Confidence (LC): nessa estratégia, seleciona-se a instância para a qual tem-se menos confiança em seu rótulo mais provável. Pela Tabela 1, o algoritmo está bastante confiante para o rotular a1, visto que ele acha que a amostra deveria ser rotulada como A com uma probabilidade de 0,9. Entretanto o algoritmo está menos seguro em relação a a2 visto que as probabilidades estão mais equilibradas entre os rótulos, onde o mais provável está com a probabilidade de apenas 0,5. Assim, usando o critério de menor confiança (Least Confidence) a amostra a2 é selecionada para o oráculo determinar o rótulo real.  Margin Sampling: Uma desvantagem na estratégia Least Confidence (LC) é de se levar em consideração apenas o rótulo mais provável e desconsiderar as outras probabilidades. A estratégia de amostragem de margem (Margin Sampling) busca suprir esta lacuna selecionando a instância que tem a menor diferença entre o primeiro e o segundo rótulo mais prováveis. Observando a1, a diferença entre seu primeiro e segundo rótulo mais prováveis é de 0,81 (0,9 - 0,09) e para a2 é 0,2 (0,5 - 0,3). Portanto, o algoritmo selecionará a2 novamente. Outras abordagens de consulta são detalhadas em Settles (2009) bem como na literatura de Active Learning, sendo exemplos: Entropia, QBC (Query by Committee), EER (Expected Error Reduction), MCLU (Multiclass Level Uncertainty) dentre outras. Devido à natureza heurística destas estratégias, é comum encontrarmos na literatura novas proposições, Cardoso et al. (2017) trás uma abordagem de ranking de amostras (Ranked batch-mode), já Zhang et al. (2016/07) propõe uma estratégia para tratativa para fluxos contínuos de de dados (Data Stream). Para este trabalho adotou-se uma estratégia inversa ao Least Confidence (LC), ou seja, os dados foram escolhidos baseados em uma alta confiabilidade sobre a 38 probabilidade dos rótulos (Mostly Confidence). Devido a natureza do processo industrial, o percentual de amostras que representem um estado normal de operação tende a ser muito maior do que os cenários anômalos. Este desbalanceamento no dataset motivou o uso desta estratégia ao qual evidenciamos os casos mais favoráveis a serem anomalias, probabilisticamente falando, e enviamos o mesmo para análise do especialista. Com isto, provoca-se um fortalecimento nos conjuntos de dados anômalos a cada iteração e consequentemente reduz-se o número de passos necessários para convergência do método semi-supervisionado. O algoritmo de aprendizado ativo utilizado pelo método foi o de propagação de rótulos, anteriormente descrito neste trabalho. 39 3 MATERIAIS E MÉTODOS Nesta seção será descrita a base de dados e detalhada a arquitetura geral do sistema, envolvendo a aplicação das técnicas de extração de características, clusterização e propagação de rótulos que por sua vez serviram de base para construção de um modelo a ser utilizado na identificação de obstruções em lingotamento contínuo. 3.1 BASE DE DADOS A base de dados deste trabalho é proveniente de dados reais de uma empresa siderúrgica situada na região Sudeste. Os dados foram obtidos do processo siderúrgico de lingotamento contínuo e do refino do aço em convertedores a oxigênio. Para modelagem do problema foram utilizados 2 meses de dados contínuos coletados de 10 em 10 segundos, o que corresponde a aproximadamente 500 corridas de lingotamento de aço. Neste trabalho, as variáveis independentes que compõe a base de dados são representadas por séries temporais relevantes na caracterização do problema, fundamentadas na literatura e definidas em conjunto de especialistas da unidade técnica de metalurgia, com ampla experiência no processo produtivo. Encontra-se na literatura pesquisas diversas que buscam entender o fenômeno de obstrução em máquinas de lingotamento contínuo, indicando variáveis influenciadoras na geração do evento. Ikäheimonen et al. (2002) indica em sua pesquisa a velocidade de lingotamento do veio e a posição da haste de bloqueio (“tampão”) como variáveis que podem dar a primeira indicação de obstrução no sistema. A Figura 18 mostra em sua parte superior o comportamento da velocidade do veio (casting speed) e posição do tampão (stopping rod) com a válvula desentupida. Em sua parte inferior temos uma situação com a válvula obstruída, onde a diferença no comportamento dos sinais é clara. Neste estudo um total de 67 variáveis foram consideradas no intuito predizer a ocorrência de obstruções. 40 Figura 18 – Séries temporais da velocidade de lingotamento e posição do ‘tampão”. Fonte: Ikäheimonen et al. (2002). No estudo realizado por Rout et al. (2013) é proposto um preditor de obstruções que leva em consideração o cálculo do fluxo volumétrico de aço líquido descarregado no molde, tendo como parâmetros a velocidade de lingotamento, largura do molde, abertura da válvula e peso do distribuidor. Na pesquisa de Wang et al. (2021) os autores com o objetivo de melhorar o monitoramento e controle sobre o lingotamento contínuo, propõem a modelagem de três índices para quantificar o nível de obstrução em válvula submersa, baseando em parâmetros de operação como a posição da haste de bloqueio (stopper rod). A posição da haste é determinante no fluxo de aço através da válvula submersa para o molde (Figura 19), sendo que os índices de obstrução são calculados baseando em desvios de haste de sua posição teórica ideal. Foram utilizadas 60 variáveis como entradas em uma arquitetura de rede neural profunda do tipo LSTM (Long-Short Term Memory) no intuito de prever índices de obstrução em tempos futuros. Figura 19 – Visão esquemática do sistema distribuidor-molde. Fonte: Adaptado de Wang et al. (2021). 41 Os estudos de Kadli et al. (2016) e Kong, Chen e Cang (2019) trazem modelos físicos para o comportamento do fluxo de aço nas válvulas, baseado em condições teóricas de operação normal, considerando aspectos geométricos dos componentes envolvidos no lingotamento, densidade e temperatura do aço dentre outros. Desvios destas condições são indicativos do início de obstrução. A Tabela 2 apresenta 5 variáveis representativas, de um conjunto total de 19 séries (sinais do processo) utilizadas na modelagem desenvolvida. Como observação, a máquina de lingotamento avaliada neste trabalho controla de fluxo de aço por meio placas concêntricas deslizantes (válvula gaveta) ao invés do uso de “tampão” (stopper rod). Tabela 2 – Exemplos de variáveis dinâmicas do processo. Descrição MIN MAX Unidade Peso do carro distribuidor 0 70 ton Velocidade do veio de lingotamento 0 2,5 m/min Nível do molde 0 150 mm Injeção de Argônio 0 60 NL/min Abertura de válvula gaveta 0 100 % Fonte: Elaborado pelo Autor (2021) 3.2 FUNDAMENTOS PARA EXTRAÇÃO DE CARACTERÍSTICAS EM SÉRIES Um parâmetro essencial no desenvolvimento deste trabalho está baseado na definição do intervalo de tempo para discretização das séries temporais escolhidas. O sinais do processo, amostrados de 10 em 10 segundos, foram divididos em janelas de tempo de tamanho fixo, e para cada uma destas janelas foram extraídas conjuntos de características capazes de representar o comportamento de cada sinal no intervalo. Para um melhor entendimento, considera-se um período de 10 minutos em um hipotético processo industrial, ilustrado pela Figura 20. Para este cenário definimos os seguintes parâmetros objetivando discretizar as séries temporais: Tamanho da 42 janela t=5 (minutos), conjunto de sinais amostrados, S1 = {ts.sinal.A, ts.sinal.B}, e um dicionário de características, DC1 = {n_of _peaks, n_crossing_m}, que correspondem respectivamente ao número de picos do sinal e número de vezes que o sinal atravessou a média dos valores no intervalo da janela. Figura 20 – Sinais contínuos do processo. Fonte: Elaborado pelo autor (2021) Fazendo uso de um extrator de características, como pacote Python TSFresh (Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests) (CHRIST et al., 2018), e passando como parâmetros os conjuntos S1 (indexados com um identificador da Janela) e DC1, teremos como resultado a discretização das séries apresentada na Figura 21. Observa-se que o conjunto de dados brutos, contendo os 10 minutos de sinais amostrados, foram comprimidos em apenas duas linhas (uma para cada janela de 5 minutos) contendo as características escolhidas para representar o comportamento dos mesmos. Por termos utilizado um dicionário contendo duas características parametrizadas e sendo o mesmo aplicada sobre duas séries, obtém-se em cada linha resultante um total de 4 características extraídas (C1 a C4). 43 Figura 21 – Discretização de séries temporais. Fonte: Elaborado pelo autor (2021) Um parâmetro importante para o extrator de características é a necessidade de um identificador único que deve ser passado com todas as amostras de dados brutos contidos na janela ao qual se pretende discretizar (vide Figura 21). Para os dados reais deste estudo foi desenvolvida uma fórmula que garante a unicidade deste identificador em toda série histórica, baseando em uma diferença temporal em segundos entre o tempo da amostra e uma data base. O código python descrito na Figura 22 demonstra a conversão de uma janela de tempo iniciada em “04/01/2019 09:20:00” para o identificador único 5155312. O parâmetro window_size=5, garante que todas as amostras no intervalo de 5 minutos recebam o mesmo identificador, o que é demostrado no código da Figura 23 para as janelas entre 5155312 e 5155314. Figura 22 – Geração de identificador para as janelas de tempo (código python). Fonte: Elaborado pelo autor (2021) 44 Figura 23 – Unicidade de identificador demonstrada em 3 janelas de 5 minutos (código python). Fonte: Elaborado pelo autor (2021) A escolha do intervalo de tempo das janelas de discretização, bem como o conjunto de características a serem extraídas, demandam conhecimento do processo e uma análise criteriosa do comportamento de cada sinal em suas séries históricas. Estas características são preponderantes para separar os comportamentos das séries multivariadas em grupos de operação distintos (normais ou anômalos). No estudo realizado por Barati et al. (2018) foi apresentada uma avaliação detalhada sobre a formação de obstrução em válvulas submersas, descrevendo as principais fases de evolução do fenômeno e com os respectivos tempos associados. Segundo a pesquisa, a formação da obstrução pode ser dividida em 3 fases e que são apresentadas na Figura 24. A primeira fase é denominada de cobertura (covering) onde ocorre uma cobertura inicial da parede da válvula por partículas depositadas. A taxa de deposição aumenta inicialmente, depois diminui e flutua até 80 segundos onde se inicia a fase de formação de protuberâncias (bulging). Nesta fase a taxa a deposição de partículas é quase constante com pequenas flutuações e dura de 80 a 180 segundos. Após os 180 segundos, inicia-se a geração de estruturas ramificadas (branching) que culminam com o entupimento total do sistema, o que ocorre em torno de 250 segundos. 45 Figura 24 – Evolução da obstrução. Nota: a) Visão da região de entupimento de seção vertical e transversal (A-A) da válvula. b) Três principais períodos de evolução da obstrução. Fonte: Barati et al. (2018) Para este trabalho, o intervalo da janela para extração de característica das séries temporais foi definido em 300 segundos (5 minutos) levando em consideração a velocidade do processo de lingotamento e o intervalo de interesse da operação para percepção do problema. Em relação às características a serem extraídas das séries, foram parametrizados 7 dicionários de características aplicados a conjuntos específicos de sinais através do pacote TSFresh. A Figura 25 nos ajuda a visualizar um exemplo de um trecho dos dados históricos que contribuiu para escolha destas características. A figura apresenta quatro séries temporais, tendo em destaque um período de obstrução compreendendo as janelas de 5155312 (“4/1/2019 09:20:00”) a 5155314 (“4/1/2019 09:35:00”). Figura 25 – Janela de obstrução e escolha de características das séries. Fonte: Elaborado pelo autor (2021) 46 O sinal de coloração azul representa o percentual de abertura da válvula gaveta e observa-se que ele sai de um padrão estável de controle, passa por uma rampa e na sequência por oscilações. O sinal de coloração marrom indica a velocidade do veio que por sua vez sofre uma desaceleração. Esta situação representa uma forte pertubação no processo, caracterizada pela obstrução da válvula. Por observação, características dos sinais como número de mínimos e máximos, número de picos, distanciamento da média seriam determinantes para diferenciar um período (janela) do processo contendo sinais estáveis de um período com o sinais oscilantes. O quadro 1 exemplifica 3 dos 7 dicionários de características que foram extraídas nas séries dos sinais de abertura de válvula, 1ª diferença da abertura de válvula e nas séries dos bicos injetores de argônio. Quadro 1 – Exemplos de três dicionários de características usados em séries temporais. Dicionários de Características Análise de abertura de válvula mean_second_derivative_central mean, median, minimum, maximum variance_larger_than_standard_deviation variance, standard_deviation Análise da válvula – 1ª diferença das séries absolute_sum_of_changes count_above_mean, count_below_mean linear_trend: [{’attr’: ’slope’}] variance_larger_than_standard_deviation large_standard_deviation: [{’r’: 0.5}] number_crossing_m: [{’m’: 0}] longest_strike_above_mean Análise das variáveis de argônio longest_strike_below_mean linear_trend: [{’attr’: ’slope’}] mean_change Fonte: Elaborado pelo Autor (2021) Este processo de extração de características e condicionamento de dados foi aplicados aos 2 meses de dados brutos do processo, originando uma base de dados de 33.954 amostras (ou janelas) com 59 características (ou dimensões) extraídas por amostra, considerando os 2 veios da máquina de lingotamento contínuo. As amostras possuem um identificador final único no formato {idVeio + idJanela} que representam o veio de lingotamento (3 ou 4) seguido do sequencial da janela que foi gerado pelo método previamente descrito. 47 A Figura 26 demonstra um trecho do dataset final gerado após esta etapa de extração de caracetrísticas, onde cada linha representa uma janela (5 minutos) do processo com as 59 características extraídas e indexadas no formato {idVeio + idJanela}. Figura 26 – Exemplos das 59 características finais extraídas em sinais do veio 3. Fonte: Elaborado pelo Autor (2021). 3.3 MODELAGEM Para este trabalho foi elaborado um pipeline (Figura 27) composto por um conjunto de técnicas no intuito de se gerar rótulos válidos que possam caracterizar a obstrução em válvulas de lingotamento contínuo, servindo de suporte para a construção de um modelo preditor capaz de identificar o problema em tempo de lingotamento. Figura 27 – Pipeline para identificação de rótulos. Fonte: Elaborado pelo Autor (2019). Como primeira etapa do pipeline foi definido um conjunto de sinais do processo de lingotamento contínuo, representados por séries temporais multivariadas (bloco 48 “Seleção Séries Temporais”). Nesta etapa ocorre a segmentação dos dados de processo em subconjuntos de intervalos (janelas), percorrendo toda a série histórica. Esta operação é um pré-requisito necessário para o algoritmos subsequente de extração de características das séries temporais. Como já explicado em seção prévia, o intervalo das janelas foi definido em 5 minutos levando em consideração a velocidade do processo e o intervalo de interesse da operação para percepção do problema. A Figura 28 traz um exemplo de um destes subconjuntos, contendo amostragens dados brutos do processo e indexados com um identificador único para janela. Estes dados por sua vez servirão de entrada para a próxima fase onde serão extraídas um conjunto de características representativas dos sinais nos intervalos (bloco “TSFresh + Features Customizadas”). Veja que neste exemplo temos a janela 5163264, correspondente ao intervalo de “01/02/2019 00:00:00” a “01/02/2019 00:04:59” (5 minutos), destacando os dados brutos de algumas séries como o percentual de abertura da válvula gaveta (coluna LC2.K_SLDGT_STR3A_AL_POS), ingestão de argônio (coluna LC2.FT_683_3_F) e peso do carro distribuidor (coluna LC2.C_TD_CAR_WGHT_A). Observa-se também que o sinal foi amostrado de 10 em 10 segundos com o identificador da janela inserido em todas as linhas amostradas no intervalo. A nomenclatura destas colunas se refere às variáveis de processo cadastradas no sistema de PIMS (do inglês, Plant Information Management Systems) da siderúrgica, sistema este que por sua vez é responsável por adquirir dados do processo de diversas fontes e gravá-los em um banco de dados temporal, especializado para compressão e armazenamento de dados históricos em grande volume. 49 Figura 28 – Exemplo de janela sobre os sinais do processo. Fonte: Elaborado pelo Autor (2021). Com base em análises exploratórias dos dados e entendimento da natureza física do processo foram definidas características que poderiam ser determinantes na separação realizada pelo método de clusterização, para diferenciar a normalidade do processo dos casos de pertubações que caracterizam a obstrução nas válvulas submersas. Foram parametrizados 7 dicionários de características a serem extraídas, sendo cada série temporal associada a um destes grupos. Com base nestes parâmetros e os dados das séries presentes na janela, inicia-se um processo automático de extração de características fazendo uso do pacote Python TSFresh (Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests) (CHRIST et al., 2018). De forma complementar adicionou-se novas características customizadas como a diferença entre mínimos e máximos dos sinais nas janelas, bem como realizou-se a extração de características da correlação entre a velocidade dos veios de lingotamento e abertura de válvula. 50 A Figura 29 exemplifica este processo, onde são utilizados dois dos 7 dicionários de características a serem extraídas dos sinais. O dicionário “fc_parameters5 ”, contém 3 características de interesse a serem extraídas do sinal de nível do molde (minimum, maximum e a integral do sinal sum_values). Já o dicionário “fc_parameters” parametriza 15 características que deverão ser extraídas do sinal de abertura da válvula gaveta. Como resultante temos a geração de 18 novas dimensões no dataset, sendo 15 associadas ao sinal de percentual de abertura de válvula e 3 relacionadas ao sensoriamento de nível do molde. Estas 18 dimensões (ou características) irão compor um total de 59 (Figura 26), levando em consideração as extrações dos demais sinais avaliados no intervalo da janela. Figura 29 – Extração de características nos sinais em janela deslizante. Fonte: Elaborado pelo Autor (2021). 51 Importante ressaltar que os veios possuem comportamento diferentes em função de aspectos de equipamento e processo, visto que podem ser produzidas placas de dimensões diferentes nos mesmos. Entretanto optou-se neste trabalho em usar as mesmas características, extraídas das séries de ambos os veios, em um processo único de clusterização. Com isto, eleva-se o número de amostras no intuito de se generalizar o modelo. Os vetores de características gerados passam por um processamento (bloco “Condicionamento dos Dados”). Atividades para condicionamento dos dados foram realizadas antes de se dar início à etapa de geração dos clusters, tendo por objetivo eliminar ou minimizar a influência de situações como falta de dados e duplicidade de amostras (GARCÍA; LUENGO; HERRERA, 2016). Condições de parada de processo (σ < 0 1 em determinadas features) também foram filtradas. Características com variância zero foram eliminadas e mediu-se os coeficientes de correlação de Pearson entre as variáveis restantes. O coeficiente de correlação mensura o quão uma variável pode ser estimada ou explicada a partir de outra, assumindo valores entre -1 e +1. Os valores extremos da faixa indicam colinearidade perfeita, sendo -1 para correlação perfeita inversamente proporcional e +1 para correlação perfeita diretamente proporcional. Por fim, o coeficiente nulo indica independência estatística entre as variáveis. Variáveis com índice de correlação superior a 0,98 foram eliminadas para redução de dimensionalidade do vetor de características das séries. Finalmente, visando estabelecer os mesmos graus de importância entre as variáveis independentes, os dados foram normalizados. Em seguida são sequenciados dois passos de clusterizações, combinados em diferentes espaços dimensionais fazendo uso do algoritmo DBSCAN (blocos “DBSCAN 1 Norma x Outliers” e “DBSCAN 2 (Outliers)”), obtendo-se os rótulos das anomalias (bloco “Geração de Label (Cluster de Clogging)”). A primeira etapa de clusterização teve por objetivo separar as janelas de operação normal dos outliers. Os hiper-parâmetros do DBSCAN foram ajustados para este propósito com valores de ε = 35 e ε = com minPts correspondendo a 5% da amostra, fazendo uso das distâncias euclidiana e de Mahalanobis. Os parâmetros para os “clusters euclidianos” tiveram por objetivo caracterizar fortemente a norma de operação enquanto os parâmetros para Mahalanobis buscaram caracterizar os 52 outliers. Estes outliers identificados foram projetados em um espaço dimensional reduzido fazendo uso do algoritmo UMAP (Uniform Manifold Approximation and Projection) (MCINNES; HEALY; MELVILLE, 2018). UMAP é uma técnica de redução de dimensionalidade não linear (e não determinística), se mostrando computacionalmente mais eficiente do que reduções dimensionais similares como o t-SNE (MAATEN; HINTON, 2008) e preserva a natureza das relações entre os pontos após a projeção no espaço dimensional reduzido. Uma segunda etapa de clusterização é realizada sobre o espaço projetado pelo UMAP, considerando apenas o universo de pontos classificados como outliers na primeira etapa. Para esta fase foi realizado uma calibração dos hiper-parâmetros do DBSCAN considerando o sillhouette score (ROUSSEEUW, 1987) como métrica de avaliação da qualidade dos clusters. Uma análise visual de amostras dos elementos destes clusters proporciona uma rápida identificação dos principais casos de interesse, gerando um conjunto inicial de rótulos que serve de base para o passo final deste pipeline que envolve uma técnica de propagação de rótulos semi-supervisionada (bloco “KNN Label Spreading”). 53 4 EXPERIMENTOS, RESULTADOS E DISCUSSÃO Neste capítulo são detalhados os experimentos realizados tendo como base o método proposto no Capítulo 3, trazendo uma apresentação e discussão sobre os resultados obtidos. 4.1 CLUSTERIZAÇÃO Todas as janelas da base de dados foram submetidas ao algoritmo de clusterização (DBSCAN) com dois objetivos distintos: 1. Caracterização da norma de operação: Uso de distância euclidiana e hyper- parâmetros (ε, minPts) ajustados para caracterizar fortemente regiões de operação normal no processo e aumentar a zona de fronteira com os outliers. Esta abordagem trouxe melhores amostras representando as condições normais de operação e permitiu uma melhor “competitividade” no processo subsequente de propagação de rótulos. 2. Seleção de outliers: Uso da distância de Mahalanobis e hyper-parâmetros ajustados para segregar de forma mais efetiva os outliers. Como resultado foram geradas 9.636 amostras de norma e 1.258 anomalias. O gráfico da Figura 30 apresenta uma visualização UMAP dos resultados contendo os clusters euclidianos da norma de operação (0, 1, 2). É de se esperar que as condições normais de operação sejam muito mais frequentes que as situações anômalas no processo, consequentemente espera-se também que o método não- supervisionado gere clusters mais densos (ou maiores) agrupando as janelas temporais que representem estas condições. O gráfico no espaço UMAP demonstra que isto de fato ocorreu onde pode-se observar grandes “ilhas” de dados separadas. 54 Figura 30 – Clusterização inicial (Outliers x Operação normal). Fonte: Elaborado pelo Autor (2019). Buscando caracterizar ainda mais as janelas de operação normal, foram realizados ajustes nos hiper-parâmetros do método de clusterização visando agrupar os pontos mais próximos dos centroides dos clusters. O resultado desta parametrização também pode ser interpretado no gráfico, onde as colorações dos clusters 0,1,2 (verde, azul e magenta respectivamente) destacam estas regiões centrais, com os demais pontos se tornando outliers (espaço de pontos em vermelho) e sendo desprezados nesta etapa. Em unanimidade, as pesquisas na literatura correlacionam o evento de obstrução com a abertura da válvula e a velocidade do veio (WANG et al., 2021; KONG; CHEN; CANG, 2019; KADLI et al., 2016; ROUT et al., 2013; IKäHEIMONEN et al., 2002). Para demonstrar a natureza dos elementos que compõem estes cluster de operação normal foram selecionadas 3 janelas pertencentes aos mesmos, apresentadas na Figura 31. Destaca-se os sinais de abertura da válvula (série LC2.K_SLDGT_STR3A_AL_POS), velocidade do veio de lingotamento (série LC2.e_VEL_REAL_G1_A2) e nível do molde (série LC2.K_MLD_LVL_NKK_3A). Observa-se que o controle dos sinais se apresenta estável no período das janelas amostradas (com ausência de rampas ou oscilações). 55 Figura 31 – Elementos pertencentes aos clusters de operação normal. Fonte: Elaborado pelo Autor (2021). Um outro fator positivo desta estratégia foi que além de melhorar a qualidade das amostras, trouxe um melhor balanceamento no dataset visto que o número de janelas de operação normal foi reduzido, apesar de ainda continuar significativo quando comparado com as amostras anômalas. O gráfico da Figura 32 apresenta os outliers gerados com a distância de Mahalanobis. Com estas anomalias caracterizadas, evolui-se no pipeline para uma segunda etapa de clusterização onde as mesmas são projetadas em espaço dimensional reduzido (UMAP) e novamente executa-se o DBSCAN, tendo os seus hiper-parâmetros calibrados e avaliados por sillhouette score. Figura 32 – Clusterização inicial (Outliers x Operação normal). Fonte: Elaborado pelo Autor (2019). 56 Para demonstrar a natureza dos outliers foram selecionadas 3 janelas deste conjunto e apresentadas na Figura 33. Destaca-se novamente os sinais de abertura da válvula (série LC2.K_SLDGT_STR3A_AL_POS), velocidade do veio de lingotamento (série LC2.e_VEL_REAL_G1_A2) e nível do molde (série LC2.K_MLD_LVL_NKK_3A). Observa-se que a máquina conseguiu separar padrões que diferem estes intervalos dos cenários de operação normal, como os degraus nas janelas 5154700 e 5164214 e a forte rampa (seguida de decaimento) no sinal de abertura de valvula pertencente a janela 5155577. Figura 33 – Amostras de outliers separadas com a distância de Mahalanobis. Fonte: Elaborado pelo Autor (2021). Nesta segunda etapa, com os novos clusters gerados somente com os outliers, buscou-se uma caracterização ainda maior de cenários anômalos distintos no processo. Estes clusters gerados (Figura 34) serviram de base para uma análise visual e geração das “sementes” que foram submetidas ao processo subsequente de propagação de rótulos. Com destaque para os clusters 4 e 7 que ao serem inspecionados trouxeram em sua totalidade padrões bem caracterizados de uma classe de “anomalias conhecidas” pela operação como troca de válvula, saída e retorno de processo dentre outros. 57 Figura 34 – Clusterização dos outliers. Nota: Destaque para os clusters 4 e 7 separando “anomalias conhecidas” no processo. Fonte: Elaborado pelo Autor (2020) 4.2 PROPAGAÇÃO DE RÓTULOS E ACTIVE LEARNING A etapa final do pipeline consiste na aplicação de uma técnica semi-supervisionada de propagação de rótulos (RAMOS et al., 2020). Neste contexto foram definidas 3 classes distintas a serem utilizadas pelo algoritmo. A classe de operação normal (rótulo 0) foi populada com as 9.636 amostras dos clusters de norma geradas na 1ª etapa de clusterização. Uma segunda classe, denominada “anomalias conhecidas” (rótulo 3) foi populada, contendo os clusters 4 e 7 (em sua totalidade) provenientes da 2ª etapa de clusterização. Esta classe foi bem caracterizada na etapa anterior e representa cenários anômalos (por exemplo, a troca de válvulas) diferentes do problema alvo de obstrução. Adicionalmente foram acrescentadas a esta classe todos os intervalos de parada de processo que foram filtrados durante a fase de extração de características, totalizando 6.984 amostras. Por fim, para popular a classe de obstrução (rótulo 7), foram cruzadas as amostras de outliers identificadas pelo método de clusterização com macro-intervalos de prováveis obstruções sugeridos pela metalurgia e apontados (de uma forma indireta) pelos sistemas de qualidade da empresa. Deste cruzamento, pode-se observar 152 amostras consistentes de obstrução que serviram para semear o processo de propagação de rótulos. As demais amostras (17.182) foram consideradas não rotuladas (rótulo -1) e 58 consistem o espaço de propagação do algoritmo. Inicia-se então o processo semi- supervisionado com as seguintes etapas: 1. Remarcação dos rótulos da norma original. 2. Execução do algoritmo de propagação de label: Kernel kNN, n_neighbors = 7, α = 20%. 3. Análise visual dos resultados provenientes de uma estratégia de seleção. 4. Confirmação e consequente geração de novos rótulos. 5. Reinicia passo 1 até convergir. Como medida de informatividade, foram apresentados amostras marcadas pelo processo de propagação de rótulos que atendam a um limiar de probabilidade. O algoritmo de propagação nos traz esta informação (uma matriz de percentuais probabilísticos), indicando o quanto provável um determinado elemento, não rotulado, pode ser migrado para as respectivas classes vizinhas. Inicia-se com um limiar de alta confidencialidade, considerando probabilidades superiores a 90% de um elemento não rotulado pertencer a uma determinada classe. Filtra-se as amostras que atendam a este limite sendo as mesmas levadas ao especialista para análise visual. A avaliação do comportamento dos sinais é então realizada, e em certos casos, buscou-se no sistema MES da empresa a existência de eventos de qualidade registrados no período. Os rótulos das amostras, sendo confirmados pelo especialista, retornam para o conjunto de propagação no intuito de acelerar a convergência e consequente aprendizado do algoritmo. Estas amostras confirmadas também não são apresentadas nas próximas iterações, onde gradativamente os limiares de probabilidades vão sendo reduzidos. Devido ao desbalanceamento entre as situações de operação normal e cenários de pertubação no processo, busca-se com esta estratégia acelerar a rotulagem das amostras de anomalias, e consequentemente fortalecer a propagação destas classes durante o ciclo. Uma outra contramedida adotada foi a remarcação dos rótulos da norma original a cada iteração. Apesar dos novos rótulos gerados para a norma serem armazenados e adicionados ao final do processo, durante os ciclos este encolhimento (ou reset da norma) proporcionava um fortalecimento ainda maior da 59 propagação dos casos mais raros, visto os critérios de votação do kNN na análise de elementos vizinhos. O Quadro 2 traz uma visão consolidada de todo o processo com os respectivos limiares utilizados pela estratégia de consulta, bem como o total de rótulos gerados a cada iteração. Percebe-se que a cada rodada a quantidade de novos bons rótulos para as classes de interesse vão se reduzindo e praticamente se esgotam (estado de convergência) no sétimo estágio de observação, quando foi interrompido o ciclo. Para visualizar a propagação de rótulos também fez-se uso de uma projeção em espaço UMAP, onde a Figura 35 ilustra o primeiro passo bem como o estágio final em que se interrompeu o processo. O quantitativo de rótulos neste estágio final, após 7 iterações, esta sumarizado no Quadro 3. Quadro 2 – Interações do ciclo semi-supervisionado e gerações de novos rótulos. Fonte: Elaborado pelo Autor (2021) 60 Figura 35 – Propagação de rótulos: Sem rótulos(-1), Norma(0), Anomalias conhecidas(3), Obstruções(7). Fonte: Elaborado pelo Autor (2020) Quadro 3 – Rótulos após Propagação. Rótulo Amostras Descrição -1 11515 Sem rótulos (espaço de propagação) 0 12381 Operação normal 3 8167 Anomalias conhecidas 7 1891 Obstrução Fonte: Elaborado pelo Autor (2021) A Figura 36 apresenta o que seria um cenário final de convergência do método, projetado em espaço UMAP. Para tal é gerado com um passo complementar onde se permite uma propagação final (e completa) feita pelo algoritmo, eliminando toda a 61 região ainda não rotulada. Totaliza-se 24.175 amostras de norma, 8.132 amostras de anomalias conhecidas e 1.647 de obstruções. Vale ressaltar que para fins de classificação e objetivando um melhor balanceamento no dataset, este passo final foi desprezado, mantendo apenas os rótulos gerados no sétimo estágio de propagação e desprezando as 11.515 amostras que ainda seriam passíveis de ser rotulados. Figura 36 – Active Learning - Distribuição final das classes. Fonte: Elaborado pelo Autor (2020) Para viabilizar este ciclo de Active Learning e consequente geração dos rótulos, foi construída uma ferramenta em Python para visualização dos resultados do algoritmo ativo de propagação de rótulos. Gera-se visões resultantes de cruzamento dos ids das amostras rotuladas, matriz probabilística do kNN e os dados brutos das séries temporais originais. 62 A Figura 37 exemplifica a interface criada para seleção das classes pelo especialista, considerando as amostras informativas escolhidas por uma estratégia de maior confiabilidade dos rótulos. A região em destaque faz referência a uma janela (5 minutos) dentro da série multivariada. Para contextualizar melhor o processo e consequente análise, janelas complementares (anteriores e posteriores) são adicionadas na visualização para suportar o especialista do negócio (Oráculo) a uma tomada de decisão sobre o rótulo a ser aplicado no intervalo. O identificador da janela bem como a presença de botões seletores para obstrução (clogging), anomalias conhecidas (anomalyK ) e operação normal (norma) estão disponíveis na interface com o intuito de facilitar e acelerar o processo de rotulagem. Figura 37 – Seletor de classes - queries enviadas ao oráculo. Nota: A região em destaque se refere à janela (5 minutos) a ser rotulada pelo especialista do negócio. Fonte: Elaborado pelo Autor (2020) As Figuras 38 e 39 apresentam exemplos de casos identificados (e confirmados) através do uso deste ferramental disponibilizado. Na Figura 38 temos os casos de obstrução identificados, onde pode-se observar o sinal de abertura de válvula (em azul) saindo de uma situação estabilizada de controle dentro do intervalo destacado. Outro padrão a se observar nos sinais de algumas amostras são as rampas de injeção de argônio (sinais em amarelo e verde), ação usual feita pela operação na tentativa de se desobstruir a válvula e estabilizar o sistema. 63 Figura 38 – Identificação de Obstruções. Nota: Sinal de abertura de válvula saindo de uma situação estabilizada de controle no intervalo destacado. Fonte: Elaborado pelo Autor (2020) Figura 39 – Identificação de “anomalias conhecidas”. Nota: Padrões identificados nos sinais (degraus) indicando alta probabilidade de anomalia conhecida. Fonte: Elaborado pelo Autor (2020) 64 Na Figura 39 é possível observar padrões (degraus) identificados nos sinais de abertura de válvula (em azul) e nível do molde (em rosa), que por sua vez indicam alta probabilidade de anomalia conhecida. A escolha destes sinais (com suas respectivas características) foram essenciais para separação das amostras pelos algoritmos de aprendizado. Deve-se ressaltar que estes resultados foram analisados por especialistas do domínio de interesse que confirmaram os resultados obtidos como correspondendo a eventos de obstrução reais. Ou seja, ao final do processo semi-supervisionado de propagação de rótulos, 100% dos eventos rotulados como obstruções foram validados. Finaliza-se então a última etapa do pipeline para identificação de rótulos, gerando um ground truth significativo para a etapa subsequente que envolve o desenvolvimento de um modelo que possa predizer os eventos de obstrução. 4.3 APRENDIZADO SUPERVISIONADO PARA DETECÇÃO DE OBSTRUÇÃO De posse da base rotulada, o próximo passo envolve a construção de modelos de aprendizado de máquina, mais especificamente classificadores, que visam a predição destas anomalias em tempo de processo, como suporte à decisão para julgamento da qualidade dos produtos produzidos. Neste contexto, um modelo classificador (multi-classe) foi desenvolvido que recebe como entrada as características extraídas dos sinais temporais em janelas de tempo de 5 minutos. A variável alvo indica probabilidades de três classes de operação durante este intervalo, sendo elas: Lingotamento normal (classe 0), anomalias conhecidas como troca de válvulas e parada de máquina (classe 3) ou lingotamento com obstrução (classe 7). De forma complementar, um software protótipo foi construído com o intuito de apresentar visualmente as anomalias detectadas. Com este protótipo já é possível verificar em um formato de “mapa de calor” as regiões de menor e maior probabilidade das três classes de interesse. Os resultados da classificação foram cruzados, através dos índices temporais, com os dados do sistemas de MES da planta (Figura 40) no intuito de representar as placas que estão sendo lingotadas nestas regiões. 65 Vale ressaltar que a validação do classificador foi feita com uma massa de testes, separada dos dados de treinamento do modelo, associada a um período de 4 meses de lingotamento. A Figura 40 apresenta resultados da classificação, em um determinado intervalo contido nestes 4 meses. Observa-se o comportamento do sinal correspondente à abertura de válvula (em azul), como discutido nas sessões anteriores, esta série temporal é determinante para caracterização do fenômeno de obstrução. Durante o lingotamento da placa “375489407” o sinal da válvula sofre uma inclinação abrupta, sendo indicado pelo classificador uma alta probabilidade de obstrução (classe 7) no intervalo. A janela de 5 minutos subsequente (“id=5193046”) também é classificada como obstrução porém no próximo período já temos um outro padrão nos sinais da válvula e do nível do molde (formato de “degrau”), que também foi corretamente interpretado pelo classificador como uma “anomalia conhecida” (classe 3), referente a uma troca de válvula para desobstruir o sistema. Na sequência do processo, o sinal de abertura da válvula volta a um limiar de controle estabilizado. Figura 40 – Protótipo para visualização das obstruções sequenciadas no tempo. Nota: Classes: obstrução (vermelho), anomalia conhecida (verde), normal (sem coloração). Fonte: Elaborado pelo Autor (2020) 66 Sobre uma amostragem de 20% do dataset final gerado foram validados um conjunto inicial de classificadores, dentre eles: kNN (baseline da propagação), Random Forest, SVM e MLP (Quadro 4). Os dados para treino e testes foram divididos respeitando uma proporção de 80%/20% onde foram feitas validações cruzadas com um total de 5 folds. Também foram feitos experimentos de seleção de características e uma adequação no dataset, inserindo-se novas características de entrada no modelo, através de uma autorregressão aplicada a cada observação (janela de 5 minutos). O termo autorregressão indica uma regressão de uma variável contra si mesma (HYNDMAN; ATHANASOPOULOS, 2018), usa-se observações de etapas de tempo anteriores como entrada para prever o valor na próxima etapa de tempo. A Tabela 3 demonstra o conceito aplicado sobre as 59 características originalmente extraídas, onde gerou-se um novo dataset com um total de 118 características. Quadro 4 – Resultados percentuais preliminares de classificação (Métrica: Recall). Nota: Modelos: (a) kNN, (b) SVM, (c) Rede Neural (MLP), (d) Randon Forest Fonte: Elaborado pelo Autor (2021) Tabela 3 – Autoregressão (t − 1). Fonte: Elaborado pelo Autor (2021) 67 Com a autorregressão busca-se levar para o classificador observações de janelas passadas a fim de que sejam correlacionadas com a janela atual. Um exemplo clássico observado no contexto deste problema, foi dar ao classificador mais características para auxiliar no discernimento de situações limítrofes, como retorno de operação contra obstrução em válvula. Neste contexto, por experimentos, a janela passada se mostrou clara e visualmente determinante para diferenciação das classes. O resultado do modelo de classificação desenvolvido neste trabalho mostra-se promissor quando comparado com resultados de outros modelos preditores encontrados na literatura. Este comparativo está demonstrado na Tabela 4. Tabela 4 – Comparativo com outros modelos para predição de obstruções. Fonte: Elaborado pelo Autor (2021) 4.4 IDENTIFICAÇÃO DE OBSTRUÇÕES POR ANÁLISE DE SÉRIES TEMPORAIS Com os dados devidamente rotulados, o processo para identificação de obstruções deve ser complementado com a geração de um modelo classificador ensemble que tem como parâmetros de entrada as características extraídas das séries temporais. Os experimentos preliminares de classificação trouxeram resultados promissores, porém entende-se que a identificação de obstruções pode ser refinada e consequentemente tendo sua acurácia final melhorada. Pela análise exploratória foi possível identificar amostras difíceis de serem separadas o que estimula a investigação de técnicas, ou combinação de técnicas ensemble no intuito de se endereçar o problema alvo deste trabalho. A Figura 41 traz um exemplo deste experimento de análise exploratória que foi realizado em uma amostragem de 20% dos dados do dataset final gerado. Foi 68 possível verificar a separação das 3 classes de interesse com um algoritmo de PCA aplicado onde em verde temos os rótulos de obstrução (classe 7), em azul os rótulos de operação normal (classe 0) e em vermelho as anomalias conhecidas (classe 3). Verifica-se também regiões com amostras bem separadas e regiões de “fronteira” com os casos de difícil separação. Um exemplo destes casos foi destacado onde uma região classificada como obstrução (que foi uma obstrução de fato) é muito similar a uma outra região corretamente classificada como operação normal. Nota-se uma similaridade nas “rampas” dos sinais porém para o primeiro caso se tratava de uma abertura exagerada da válvula gaveta provocada pela obstrução e já a rampa no segundo caso está associada a um comportamento normal de retomada do processo após uma troca de válvula submersa. Figura 41 – Complexidade de classificação nas regiões de "fronteira". Fonte: Elaborado pelo Autor (2021) Novas abordagem de classificação estão sendo aplicadas em cenários industriais através de uma combinação de técnicas de Deep Learning. Wang et al. (2018) faz uma decomposição de wavelets associada a dois tipos de redes neurais profundas, 69 uma CNN (do inglês, Convolution Neural Network) sequenciada de uma rede LSTM (do inglês, Long Short-Term Memory) para previsibilidade futura na geração de energia em uma planta industrial com um grid de células fotovoltaicas. Parte da arquitetura proposta é ilustrada na Figura 42. Figura 42 – Rede CNN para extração de características combinadas com um preditor LSTM. Fonte: Wang et al. (2018) Li et al. (2019) traz uma abordagem similar com uso de Deep Learning para diagnóstico de sinais industriais. Uma contribuição indireta do uso destas abordagens é que características são geradas pela arquitetura de Machine Learning (camada de convolução), sem a necessidade de inferências de especialistas do negócio. 4.5 ANÁLISE DOS RESULTADOS Sobre o trabalho, é possível enumerar alguns aspectos positivos e negativos sobre o contexto até então desenvolvido. Dentre os pontos positivos entende-se que a metodologia de rotulagem aplicada pode ser estendida para outros cenários da industria, que em muitos casos, são carentes de rótulos. 70 A rotulação de sinais de processo pode-se dizer que é bem mais complexa do que dar rótulos a datasets de objetos comuns (diferenciar cães de gatos, casas, veículos dentre outros). Além disto, especialistas sobre este domínio de conhecimento são bem mais raros e com a disponibilidade de tempo escassa. Portanto uma técnica capaz de acelerar este processo de rotulação é de grande valia. O uso de metodologias clássicas de aprendizado de máquina, aplicadas neste trabalho, facilita a legibilidade dos resultados gerados. Com a posse de uma base rotulada, novas técnicas como deep learning poderiam ser aplicadas, porém é de se esperar um perda de legibilidade (ou dificuldade de interpretação) nos resultados obtidos ao se fazer uso de técnicas desta natureza. Em relação aos aspectos negativos, e consequente estímulo a se buscar oportunidades de melhoria, vale ressaltar que o processo de seleção das melhores características dentre os sinais foi custoso, demandando tempo para análise das séries históricas e com grande suporte dos especialistas de domínio. A metodologia de Active Learning e seus respectivos parâmetros pode ser melhor explorada em trabalhos evolutivos futuros. Considerar outras estratégias de queries, variações nos limiares de probabilidade ou o uso de frameworks são exemplos que podem ser melhor investigados. Sendo assim, com estas variações, sugere-se também uma análise comparativa dos tempos de convergência de forma a indicar melhores parâmetros a serem aplicados nas técnicas de Active Learning no contexto de processos industriais. 71 5 CONSIDERAÇÕES FINAIS E CONCLUSÃO O problema de obstrução pode causar perdas na produção e impactos de qualidade no processo de lingotamento contínuo do aço. A ausência de conjuntos de dados rotulados para obstruções, bem como outros estados de operação, restringe o desenvolvimento de modelos de aprendizado de máquina para predição deste tipo de anomalia no processo. Este trabalho desenvolveu um método para rotulação de eventos de obstrução de lingotamento contínuo em uma base de dados composta por séries temporais multivariadas. A combinação de técnicas de aprendizado não supervisionado com um método de aprendizado ativo proporcionou a geração de rótulos válidos para 2 meses de dados que compõem as séries históricas avaliadas. Em seguida, com o conjunto de dados contendo os eventos de operação já rotulados, foi possível construir modelos para identificar os eventos de obstrução de lingotamento contínuo. Estes modelos ainda que preliminares, apresentaram desempenho adequado, com índice de recall superior a 82% para a classe de obstruções (e acima de 95% na acurácia geral). Sendo assim, os modelos produzidos podem ser aplicados no processo produtivo da planta industrial, seja como suporte às equipes de operação, ou de forma a suportar as equipes de metalurgia no julgamento da qualidade dos produtos produzidos. Dado o exposto acima é apropriado dizer que este trabalho alcançou o objetivo proposto que era o de avaliar o uso de técnicas de aprendizado ativo e análise de séries temporais multivariadas para o desenvolvimento de um modelo de detecção de eventos de obstrução de lingotamento contínuo. As técnicas estudadas se mostraram efetivas na identificação dos eventos de obstrução e robustas o suficiente para serem utilizadas em produção em uma planta industrial real. Dentre os pontos positivos do trabalho, entende-se que a metodologia de rotulagem aplicada pode ser estendida para outros cenários da indústria, que em muitos casos, são carentes de rótulos. A rotulação de sinais de processo pode-se dizer que é bem mais complexa do que dar rótulos a datasets de objetos comuns (diferenciar cães de gatos, casas, veículos 72 dentre outros). Além disto, especialistas sobre este domínio de conhecimento são bem mais raros e com a disponibilidade de tempo escassa. Portanto uma técnica capaz de acelerar este processo de rotulação é de grande valia. Outro ponto a se destacar é que o uso de metodologias clássicas de aprendizado de máquina, aplicadas neste trabalho, facilita a legibilidade dos resultados gerados. Com a posse de uma base rotulada, novas técnicas como deep learning poderiam ser aplicadas, porém é de se esperar um perda de legibilidade (ou dificuldade de interpretação) nos resultados obtidos ao se fazer uso de técnicas desta natureza. 5.1 TRABALHOS FUTUROS Um possível desenvolvimento futuro para este trabalho seria avançar nos estudos de classificação, experimentando arquiteturas de deep learning e validando as mesmas sobre o dataset final que foi rotulado. Propõe-se comparar os resultados obtidos por estas arquiteturas com os resultados de classificadores ensemble (XGBoost, LightGBM), bem como com os resultados do classificador preliminar já desenvolvido. A metodologia de Active Learning e seus respectivos parâmetros também pode ser melhor explorada em trabalhos evolutivos futuros. Considerar outras estratégias de queries, variações nos limiares de probabilidade ou o uso de frameworks são exemplos que podem ser melhor investigados. Sendo assim, com estas variações, sugere-se também uma análise comparativa dos tempos de convergência de forma a indicar melhores parâmetros a serem aplicados em técnicas de Active Learning para o contexto da indústria. 73 REFERÊNCIAS ABOUELAZAYEM, Shereen et al. Switched MPC Based on Clogging Detection in Continuous Casting Process. IFAC-PapersOnLine, v. 53, n. 2, p. 11491–11496, 2020. ISSN 24058963. Disponível em: https://linkinghub.elsevier.com/retrieve/pii/ S2405896320308909. BAGNALL, Anthony et al. The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances.(report)(author abstract). Data Mining and Knowledge Discovery, Springer, v. 31, n. 3, p. 606, 2017. ISSN 1384-5810. BARATI, Hadi et al. A transient model for nozzle clogging. Powder Technology, Elsevier, v. 329, p. 181–198, 2018. BOX, George E. P. et al. Time series analysis: forecasting and control. [S.l.: s.n.], 2016. ISBN 9781118674925. BURNS, David M; WHYNE, Cari M. Seglearn: A Python Package for Learning Sequences and Time Series. Journal of Machine Learning Research, v. 19, p. 1– 7, 2018. Disponível em: https://github.com/dmbee/seglearn. CARDOSO, Thiago N.C. et al. Ranked batch-mode active learning. Information Sciences, v. 379, p. 313–337, 2017. ISSN 0020-0255. Disponível em: https://www.sciencedirect.com/science/article/pii/S0020025516313949. CEMERNEK, David et al. Machine learning in continuous casting of steel: A state-of- the-art survey. Journal of Intelligent Manufacturing, mar. 2021. ISSN 0956-5515, 1572-8145. Disponível em: http://link.springer.com/10.1007/s10845-021-01754-7. CHANDOLA, Varun; BANERJEE, Arindam; KUMAR, Vipin. Anomaly detection: A survey. ACM Computing Surveys, ACM, v. 41, n. 3, p. 1–58, jul. 2009. ISSN 03600300. CHRIST, Maximilian et al. Time Series FeatuRe Extraction on basis of Scalable Hypothesis tests (tsfresh - A Python package). Neurocomputing, Elsevier, v. 307, p. 72–77, sep. 2018. Disponível em: https://www.sciencedirect.com/science/article/pii/ S0925231218304843. CLEVELAND, Robert B. et al. Stl: A seasonal-trend decomposition procedure based on loess (with discussion). Journal of Official Statistics, v. 6, p. 3–73, 1990. CRAMB, Alan W; RASTOGI, R; MADDELENA, R. The Making, Shaping and Treating of Steel: casting volume. [S.l.]: AISE Steel Foundation, 1999. ESTER, Martin et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In: INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING. 2., 1996. Proceedings… [S.l.: s.n.], 1996. p. 226–231. 74 GARCÍA, Salvador; LUENGO, Julián; HERRERA, Francisco. Tutorial on practical tips of the most influential data preprocessing algorithms in data mining. Knowledge- Based Systems, Elsevier, v. 98, p. 1–29, apr 2016. ISSN 09507051. HYNDMAN, Rob J; ATHANASOPOULOS, George. Forecasting: principles and practice. [S.l.]: OTexts, 2018. IKäHEIMONEN, Jouni et al. Nozzle clogging prediction in continuous casting of steel. In: IFAC WORLD CONGRESS. 15., 2002. Proceedings… [S.l.: s.n.], 2002. v. 35, n. 1, p. 143–147. Disponível em: https://www.sciencedirect.com/science/article/pii/ S1474667015395963. JONES, M ; et al. Anomaly Detection in Real-Valued Multidimensional Time Series. In: ASE BIGDATA/SOCIALCOM/CYBERSECURITY CONFERENCE, STANFORD UNIVERSITY. 2014. Proceedings… [S.l.: s.n.], 2014. ISBN 9781625610003. KADLI, R et al. Development and implementation of nozzle clogging index at continuous caster to improve length of casting. Int. J. Recent Dev. Eng. Technol, v. 5, p. 10–14, 2016. KONG, Wei; CHEN, Ying-Feng; CANG, Da-Giang. Ladle nozzle clogging during casting of silicon-steel. High temperature materials and processes, De Gruyter, v. 38, n. 2019, p. 813–821, 2019. ISSN 0334-6455. LI, Tianfu et al. Waveletkernelnet: An interpretable deep neural network for industrial intelligent diagnosis. [S.l.: s.n.], 2019. LIAO, T. Warren. Clustering of time series data - A survey. Pattern Recognition, Pergamon, v. 38, n. 11, p. 1857–1874, nov. 2005. ISSN 00313203. MAATEN, Laurens van der; HINTON, Geoffrey. Visualizing data using t-SNE. Journal of Machine Learning Research, v. 9, p. 2579–2605, 2008. Disponível em: http://www.jmlr.org/papers/v9/vandermaaten08a.html. MCINNES, Leland; HEALY, John; MELVILLE, James. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. feb. 2018. Disponível em: http://arxiv.org/abs/1802.03426. MORETTIN P. A.; TOLOI, C. M. Séries Temporais. 2. ed. São Paulo: Atual, 1987. NATEKIN, Alexey; KNOLL, Alois. Gradient boosting machines, a tutorial. Frontiers in Neurorobotics, Frontiers, v. 7, n. DEC, p. 21, dec 2013. ISSN 16625218. OMETTO, L. et al. Successful Use Case Applications of Artificial Intelligence in the Steel Industry. In: IRON AND STEEL TECHNOLOGY CONFERENCE. 2019. Proceedings... [S.l.]: AIST, 2019. p. 2573–2584. ISBN 978-1-935117-79-7. PEIXOTO, Johne Jesus Mol. Modelamento físico e matemático do fluxo no Interior de um molde de lingotamento contínuo de Beam Blank alimentado com duas válvulas submersas tubulares. 2016. Dissertação (Mestrado Engenharia de Materiais) - Escola de Minas, Universidade Federal de Ouro Preto, Ouro Preto, 2016. 75 RACKERS, K G; THOMAS, B G. Clogging in Continuous Casting Nozzles. In: STEELMAKING CONFERENCE. 78., 1995. Proceedings... [S.l.]: Iron and Steel Society, 1995. v. 78, p. 723–734. RAMOS, Leandro et al. Geração semiautomática de valores de referência para identificação de obstruções em lingotamento contínuo. In: SEMINÁRIO INTEGRADO DE SOFTWARE E HARDWARE. 47., 2020. Anais... Porto Alegre: SBC, 2020. p. 116–127. Disponível em: https://sol.sbc.org.br/index.php/semish/article/view/11322. RODPONGPUN, Sura; NIENNATTRAKUL, Vit; RATANAMAHATANA, Ann. Selective Subsequence Time Series clustering. Knowledge-Based Systems, v. 35, p. 361– 368, 2012. ROUSSEEUW, Peter J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, v. 20, p. 53–65, 1987. ISSN 0377-0427. Disponível em: http://www.sciencedirect.com/science/article/ pii/0377042787901257. ROUT, Bapin Kumar et al. Development and application of nozzle clogging index to improve the castabilty in continuous slab casting. In: INTERNATIONAL CONFERENCE ON ADVANCES IN REFRACTORIES AND CLEAN STEEL MAKING. 2013. Proceedings… [S.l.: s.n.], 2013. v. 13. SALA, Davi Alberto et al. Multivariate Time Series for Data-Driven Endpoint Prediction in the Basic Oxygen Furnace. In: IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA). 17., 2018. Proceedings… [S.l.]: IEEE, 2018. p. 1419–1426. ISBN 978-1-5386-6805-4. SETTLES, Burr. Active Learning Literature Survey. [S.l.: s.n.], 2009. THOMAS, Brian G; BAI, Hua. Tundish Nozzle Clogging-Application Of Computational Models. In: PROCESS TECHNOLOGY DIVISION CONFERENCE. 18., 2001. Proceedings... [S.l.]: Iron and Steel Society, 2001. v. 18. VANNUCCI, Marco et al. Detection of rare events within industrial datasets by means of data resampling and specific algorithms. International Journal of Simulation: Systems, Science and Technology, v. 11, n. 3, p. 1–11, 2010. ISSN 14738031. VANNUCCI, Marco; COLLA, Valentina. Novel classification method for sensitive problems and uneven datasets based on neural networks and fuzzy logic. In: Applied Soft Computing Journal. [S.l.: s.n.], 2011. v. 11, n. 2, p. 2383–2390. WANG, Bo; TU, Z.; TSOTSOS, John. Dynamic label propagation for semi-supervised multi-class multi-label classification. [S.l.: s.n.], 2013. v. 52, p. 425–432. WANG, Fei et al. Wavelet decomposition and convolutional lstm networks based improved deep learning model for solar irradiance forecasting. Applied Sciences, MDPI AG, Basel, v. 8, n. 8, 2018. ISSN 20763417. Disponível em: http://search.proquest.com/docview/2322347826/. 76 WANG, Ruibin et al. Development of quantitative indices and machine learning- based predictive models for sen clogging. In: THE IRON & STEEL TECHNOLOGY CONFERENCE. 2021. Proceedings... [S.l.: s.n.], 2021. WOOLDRIDGE, Jeffrey. Introductory econometrics: a modern approach. 5. ed. Mason, Ohio: South-Western Cengage Learning, 2012. 881 p. Disponível em: https://search.library.wisc.edu/catalog/9910154038602121. YE, Lexiang; KEOGH, Eamonn. Time series shapelets: a novel technique that allows accurate, interpretable and fast classification. Data Mining and Knowledge Discovery, New York, v. 22, n. 1-2, p. 149–182, 2011. ISSN 13845810. Disponível em: http://search.proquest.com/docview/822711684/. YUAN, Fangming et al. Online forecasting model of tundish nozzle clogging. Journal of University of Science and Technology Beijing: Mineral Metallurgy Materials (Eng Ed), No longer published by Elsevier, v. 13, n. 1, p. 21–24, feb. 2006. ISSN 10058850. ZHANG, Lifeng; WANG, Yufeng; ZUO, Xiangjun. Flow transport and inclusion motion in steel continuous-casting mold under submerged entry nozzle clogging condition. Metallurgical and Materials Transactions B: Process Metallurgy and Materials Processing Science, Springer US, v. 39, n. 4, p. 534–550, aug. 2008. ISSN 10735615. ZHANG, Xuxu et al. A novel sampling strategy for active learning over evolving stream data. In: INTERNATIONAL CONFERENCE ON COMPUTER ENGINEERING, INFORMATION SCIENCE AND APPLICATION TECHNOLOGY (ICCIA 2017). 2., 2017. Proceedings… Atlantis Press, 2016/17. p. 336–342. Disponível em: https://doi.org/10.2991/iccia-17.2017.57. ZHOU, Dengyong et al. Learning with local and global consistency. In: ADVANCES in Neural Information Processing Systems 16. [S.l.]: MIT Press, 2004. p. 321–328. ZHU, Xiaojin; GHAHRAMANI, Zoubin. Learning from Labeled and Unlabeled Data with Label Propagation. Pittsburgh, PA: [s.n.], 2002. ZOLHAVARIEH, Seyedjamal; AGHABOZORGI, Saeed; TEH, Ying Wah. A review of subsequence time series clustering. Scientific World Journal, Hindawi, v. 2014, jul. 2014. ISSN 1537744X.