Uma Avaliação da Utilização de Aprendizado por Reforço para o Controle de Sistemas de Tempo Contínuo Não Lineares

Pessotti, Larson Recla (2022-06-30)

tcc

Este trabalho tem como objetivo avaliar a aplicação da aprendizagem por reforço para controlar sistemas não lineares. Os problemas não lineares são naturalmente complexos para se controlar. A vantagem da utilização da aprendizagem por reforço é que dispensa a modelagem matemática do sistema, isso faz com que a dificuldade em modelar matematicamente o comportamento do sistema não linear complexo, não impeça o aprendizado e a obtenção de um controlador. A aplicação neste trabalho está restrita a um ambiente de simulação, o pêndulo invertido, porém, a metodologia utilizada pode ser replicada a outros sistemas de comportamento não-linear. É importante ressaltar que as ferramentas utilizadas simulam possíveis problemas ou interferências que possam acontecer em situações reais, isso confere robustez e confiabilidade aos resultados. A simulação foi implementada utilizando a linguagem Python, a biblioteca PyTorch e um ambiente de simulação desenvolvido com PyGame. Como resultado deste trabalho, destaca-se a implementação da influência da variável de controle no desempenho de seguir a referência, fazendo descontos nas recompensas obtidas pelo agente e a expansão da rede neural com o objetivo de variar a ação do agente (controlador) e suavizar a ação de controle.


Collections: