Obtenção de entidades e relações de restrições de processos de negócio a partir de texto
dissertacao_mestrado
RESUMO Processos de negócio são frequentemente documentados usando descrições textuais, que, embora amplamente compreensíveis, podem apresentar ambiguidades que dificultam a modelagem precisa desses processos. Dessa forma, opta-se normalmente pela transcrição desses textos em modelos de processo mais formalizados que eliminem ambiguidades e preservem aspectos de compreensão e legibilidade. Em geral, a modelagem de processos de negócio é realizada de maneira manual por agentes humanos auxiliados por ferramentas de modelagem, demandando muito tempo e esforço. Diversos trabalhos têm investigado o uso de técnicas de Inteligência Artificial para desenvolver ferramentas computacionais que possam realizar a modelagem de processos de negócio de forma automática ou semi automática. Em geral, as abordagens utilizadas para realizar esta transcrição buscam a criação de modelos a partir de texto de forma direta. Este trabalho investigou uma abordagem de transcrição que envolve a extração preliminar de entidades e relações de restrição dos processos. A metodologia utilizada baseia-se no uso de técnicas de Processa mento de Linguagem Natural (PLN) para extrair entidades e relações que representam restrições fundamentais de processos descritos em linguagem natural, contribuindo para a construção de modelos declarativos suficientemente expressivos para apoiarem a criação de modelos de processo. Para validar a proposta, foi construído um conjunto de dados com 133 documentos, contendo 1.361 sentenças e 5.395 anotações realizadas por especialistas, abrangendo entidades como atores e atividades, além de relações como dependências estritas e circunstanciais. Dois experimentos foram realizados para avaliar a proposta. O primeiro, direcionado ao Reconhecimento de Entidades Nomeadas (REN), utilizou abordagens clássicas, como Conditional Random Fields (CRF), arquiteturas neurais como Bidirectional Long Short-Term Memory Network (BiLSTM) combinada com CRF, e mo delos de linguagem baseados no Bidirectional Encoder Representations from Transformers (BERT). Além disso, foram utilizadas representações de word embeddings provenientes dos modelos Glove, Flair, DistilBERT e BERTBase para enriquecer as representações das palavras. Os resultados indicaram que o modelo BiLSTM-CRF combinado com as representações Glove e Flair alcançou os melhores resultados para a maioria das entidades com base na métrica f1-score. O segundo experimento abordou a tarefa de classifica ção de relações, utilizando os modelos BERT, DistilBERT, RoBERT a. Os resultados demonstraram que o modelo RoBERT aLarge apresentou o melhor desempenho geral, destacando-se em relações complexas, como dependência estrita e união. O s resultados indicam que entidades mais frequentes e menores foram mais fáceis de identificar pelos modelos, enquanto entidades menos representadas ou mais complexas demandaram maior capacidade de generalização. Já na classificação de relações, os modelos mais robustos demonstraram maior eficácia na captura de vínculos semânticos entre as entidades. Palavras-chave: Processo de Negócio. Restrições de negócio. Processamento de Lingua gem Natural. Reconhecimento de Entidade Nomeadas. Classificação de Relações
ABSTRACT Business processes are often documented using textual descriptions, which, although broadly understandable, may present ambiguities that make accurate modeling of these processes difficult. Therefore, it is usually decided to transcribe these texts into more formalized process models that eliminate ambiguities and preserve aspects of comprehension and readability. In general, business process modeling is performed manually by human agents assisted by modeling tools, and it demands a lot of time and effort. Several studies have investigated the use of Artificial Intelligence techniques to develop computational tools that can perform business process modeling automatically or semi-automatically. In general, the approaches used to perform this transcription seek to create models from text directly. This work investigated a transcription approach that involves the preliminary extraction of entities and constraint relations of processes. The methodology used is based on using Natural Language Processing (NLP) techniques to extract entities and relationships that represent fundamental constraints of processes described in natural language. This contributes to the construction of declarative models that are sufficiently expressive to support the creation of process models. To validate the proposal, a dataset of 133 documents was constructed, containing 1,361 sentences and 5,395 annotations made by experts. The dataset covers entities such as actors and activities, as well as relationships such as strict and circumstantial dependencies. Two experiments were carried out to evaluate the proposal. The first, aimed at Named Entity Recognition (NER), used classical approaches, such as Conditional Random Fields (CRF), neural architectures such as Bidirectional Long Short-Term Memory Networks (BiLSTM) combined with CRF, and language models based on Bidirectional Encoder Representations from Transformers (BERT). In addition, word embedding representations from the Glove, Flair, DistilBERT, and BERTBase models were used to enrich the word representations. The results indicated that the BiLSTM-CRF model combined with the Glove and Flair representations achieved the best results for most entities based on the f1-score metric. The second experiment addressed the relation classification task using the BERT, DistilBERT, and RoBERT a models. The results demonstrated that the RoBERT aLarge model presented the best overall performance, standing out in complex relations, such as strict dependency and union. The results indicate that more frequent and smaller entities were easier for the models to identify, while less represented or more complex entities required greater generalization capacity. Regarding the relation classification, the more robust models demonstrated greater effectiveness in capturing semantic links between entities. Keywords: Business Process. Business Constraints. Natural Language Processing. Named Entity Recognition. Relation Classification
Redes Sociais