Comparação de classificadores para detecção de anomalias em poços produtores de petróleo
dissertacao_mestrado
RESUMO: Anomalias em poços produtores de petróleo podem causar impactos financeiros significativos. O uso de aprendizado de máquina para detectar essas situações pode prevenir interrupções indesejadas de produção bem como custos de manutenção. Neste contexto, este trabalho realizou a aplicação e comparação de classificadores para detecção de anomalias em poços marítimos produtores surgentes de petróleo e gás (poços que conseguem escoar os fluidos produzidos até a plataforma com sua própria pressão) utilizando os dados da base pública denominada 3W dataset. Por apresentarem diferentes características em seus modelos preditivos, foram aplicados os seguintes classificadores de classe única: Floresta de Isolamento, One-class Support Vector Machine (OCSVM), Local Outlier Factor (LOF), Envelope Elíptico e Autoencoder com camadas feedforward e LSTM (Long short-term memory). Os experimentos realizados foram divididos em duas partes. Na primeira parte foi usado o benchmark para detecção de anomalias proposto por Vargas (2019). Esse benchmark demanda a geração de classificadores a nível de instância, ou seja, é gerado um classificador para cada instância treinada. Foram feitos experimentos com e sem a etapa de extração de características. Nos experimentos com extração de características, foram extraídas a mediana, média, desvio padrão, variância, máximo e mínimo para cada variável. Nos experimentos sem extração de características, as próprias séries temporais foram utilizadas como entrada para os classificadores. Os testes estatísticos de Friedman e Wilcoxon foram utilizados para avaliar se os classificadores testados geram métricas de desempenho cuja média é diferente em relação às demais. O melhor desempenho foi obtido pelo LOF com medidas F1 de 87,0% e 85,9% nos experimentos com e sem extração de características, respectivamente. Os resultados obtidos foram estatisticamente melhores que os obtidos no benchmark de Vargas (2019). Na segunda parte do experimento, a fim de verificar o desempenho das redes neurais em um cenário com maior quantidade de dados, tendo em vista o resultado não satisfatório da primeira parte, foram realizadas experimentações com o agrupamento das amostras das instâncias. Esse agrupamento significa que todas as amostras das instâncias foram utilizadas conjuntamente como entrada para o classificador, ou seja, foi gerado um classificador único de cada tipo para todo o conjunto de instâncias treinada. Como esse uso conjunto de instâncias não foi previsto originalmente no benchmark para detecção de anomalias, esses experimentos foram denominados complementares. Esse cenário com agrupamento mostrou que a maior disponibilidade de dados aumentou o desempenho numérico das redes neurais, com medida F1 de 81,5%.
ABSTRACT: Anomalies in oil-producing wells can have significant financial impacts. Using machine learning to detect these situations can prevent unwanted production disruptions and maintenance costs. In this context, this work compared classifiers for anomalies detection in naturally flowing offshore oil and gas producing wells (wells that manage to drain the fluids produced to the platform with their pressure) using data from the public dataset called 3W dataset. As they have different characteristics in their predictive models, the following one-class classifiers were applied: Isolation Forest, One-class Support Vector Machine (OCSVM), Local Outlier Factor (LOF), Elliptical envelope, and Autoencoder with layers feedforward and LSTM (Long short-term memory). The experiments performed were divided into two parts. In the first part, the anomalies detection used the benchmark proposed by Vargas (2019). This benchmark demands the generation of classifiers at the instance level, which means one model for each trained instance. The first experiment analyses the results with and without the feature extraction step. The feature extraction, for each variable, the median, mean, standard deviation, variance, maximum, and minimum were extracted. In experiments without feature extraction, the time series themselves were the input to the classifiers. Friedman and Wilcoxon’s statistical tests assess if the classifiers generate performance metrics whose average is different from the others. LOF classifier presented the best performance, with F1-measure of 87.0% and 85.9% in the experiments with and without feature extraction, respectively. The results obtained showed statistical improvement compared to the benchmark. In the second experiment, the performance of neural networks in a scenario with more data, grouping samples of instances. This grouping means that all data are input to the classifier, one model of each type for the entire set of instances. As this joint use of instances was not originally foreseen in the benchmark for anomaly detection, these experiments were called complementary. This clustered scenario showed that greater data availability increased the numerical performance of neural networks with an F1 measure of 81.5%.
Redes Sociais