@MASTERSTHESIS{ 2025:1482291311, title = {Modelagem não linear e controlador ator-crítico para manobrabilidade de um USV baseado em DLQT-I e programação dinâmica heurística dependente de ação}, year = {2025}, url = "https://tedebc.ufma.br/jspui/handle/tede/6091", abstract = "Os derramamentos de derivados de petróleo provocam degradação ambiental, problemas socioeconômicos e graves danos à saúde humana. Em decorrência das dificuldades do monitoramento dos eventos em grandes áreas, a utilização de veículos aquáticos de superfície não tripulados (Unmanned Surface Vehicles- USVs) tornou-se imprescindível para a tarefa. A aplicação desses dispositivos demandam a sua instrumentalização com sensores para análise da qualidade da água, além de um sistema de orientação, navegação e controle (Guidance, Navigation and Control- GNC). Especificamente para viabilizar a demanda de manobrabilidade, apresenta-se o desenvolvimento da proposta de um sistema de controle online baseado em Programação Dinâmica Adaptativa (PDA) e Aprendizado por Reforço (AR). O desenvolvimento de um sistema de controle para manobrabilidade de USVs, apresenta empecilhos em sua implementação em decorrência das dificuldades da identificação do sistema para a modelagem matemática do processo por se tratar de um modelo não linear complexo, acoplado e com incertezas. As perturbações externas e possíveis variações paramétricas aumentam os entraves para sua elaboração. Nesse contexto, esta dissertação apresenta o projeto de um controlador ótimo adaptativo baseado em dados para controle das velocidades de USV completamente atuado, como controle de manobrabilidade. A metodologia desenvolvida para o projeto do controlador ótimo online agrega PDA e AR na técnica Programação Dinâmica Heurística Dependente de Ação (Action Dependent Heuristic Dynamic Programming- ADHDP), visando o cálculo da solução online implícita da equação de Hamilton-Jacobi-Bellman (HJB) na forma da Equação Algébrica de Riccati Discreta (Discrete Algebric Riccati Equation- DARE). O sistema utiliza o Aprendizado por Reforço por meio da estrutura ator-crítico, com uma abordagem de controle ótimo para cálculo da lei de controle ótima baseado nos dados da ação de controle e estados do processo. O controlador desenvolvido é um Rastreador Linear Quadrático Discreto com ação integral (DLQT-I) denominado ADHDP-DLQT-I e os seus resultados são avaliados em simulador do modelo não linear, resolvido pelo método Runge-Kutta. O desempenho do sistema ADHDP-DLQT-I é comparado com um controlador PID adaptativo sintonizado pelo método dos Mínimos Quadrados (Least Mean Square- LMS).", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET}, note = {DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET} }