Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/3695

Tipo do documento:	Tese
Título:	Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço
Título(s) alternativo(s):	Data-driven state observers: tuning, approximate dynamic programming, and reinforcement learning
Autor:	SILVA, Fábio Nogueira da
Primeiro orientador:	FONSECA NETO, João Viana da
Primeiro membro da banca:	FONSECA NETO, João Viana da
Segundo membro da banca:	SERRA, Ginalber Luiz de Oliveira
Terceiro membro da banca:	SOUZA, Francisco das Chagas de
Quarto membro da banca:	BARRA JUNIOR, Walter
Quinto membro da banca:	SILVEIRA, Antônio da Silva
Resumo:	Formulações para observadores de estado para sistemas dinâmicos, baseados nos fundamentos de programação dinâmica aproximada (ADP), controle ótimo e aprendizagem por reforço são propostos, desenvolvidos, aplicadas e analisadas nesta Tese. São ainda apresentadas propostas de algoritmos, métricas para avaliação de desempenho, análises de robustez, convergência e solvabilidade. Estudos sobre sensibilidade paramétrica dos algoritmos, com relação aos sinais de ruídos, condições iniciais dos parâmetros e estados iniciais do sistema dinâmico são apresentadas. A fundamentação para os observadores propostos, são baseados em programação dinâmica apro ximada, com aproximação da função valorada realizada por um algoritmo de aprendizagem por reforço (RL), usando o erro de diferenças temporais, visando o acoplamento dos observadores para aplicações on-line, podendo também ser implementados off-line. A formulação do obser vador é fundamentada no problema de controle ótimo discreto, associado ao regulador linear quadrático (DLQR) com realimentação de saída, necessitando somente dos sinais de entrada e saídas mensuradas. Para estimação de estado com estrutura baseada em ADP, é necessário a disponibilidade de duas matrizes, sendo proposta uma formulação que resulta em um sistema de equações algébricas não lineares para recuperação das matrizes. Para a solução desse problema, são aplicados inicialmente uma rede neuronal direta multicamada, mas por possuiu uma comple xidade computacional elevada ao longo do processo iterativo, tal solução se verificou inviável. Uma alternativa baseada em uma aproximação é proposta, não sendo necessário solucionar o sistema de equações e com isso diminuindo a complexidade computacional. Para avaliar o desem penho dos algoritmos são propostos métricas de erro, visto que os algoritmos possuem diversos parâmetros sintonizáveis. Para facilitar o processo de sintonia e análise são construídas superfí cies de erros com variações dos parâmetros, a fim de observar as sensibilidades paramétricas no algoritmo com relação as métricas de erro e avaliar a solvabilidade e convergência, facilitando o processo de sintonia do observador. A aplicação das metodologias propostas apresenta vantagens como a não necessidade de modelagem ou identificação do sistema dinâmico, da incorporação de mudanças de dinâmica pelo uso de abordagens baseadas em aprendizagem por reforço, além do auxílio no processo de sintonia e análise.
Abstract:	Formulations for state observers for dynamical systems, based on the fundamentals of approxi mate dynamic programming (ADP), optimal control and reinforcement learning are proposed, developed, applied and analyzed in this Thesis. Algorithm proposals, metrics for performance evaluation, robustness, convergence and solvability analysis are also presented. Studies on para metric sensitivity of the algorithms, with respect to noise signals, initial conditions of parameters and initial states of the dynamic system are presented. The rationale for the proposed observers is based on approximate dynamic programming, with approximation of the valued function performed by a reinforcement learning algorithm (RL), using the temporal differences errors, aiming at the coupling of observers for online applications, being able to also be implemented offline. The observer’s formulation is based on the discrete optimal control problem, associated with the discrete linear quadratic regulator (DLQR) with output feedback, requiring only the measured input and output signals. For state estimation with ADP-based structure, the availability of two matrices is necessary, and a formulation is proposed that results in a system of nonlinear algebraic equations for matrix recovery. To solve this problem, a feedforward multi layer neural network is initially applied, but due to its high computational complexity throughout the iterative process, such a solution was found to be unfeasible. An alternative based on an approxima tion is proposed, not being necessary to solve the system of equations and thus reducing the computational complexity. To evaluate the performance of the algorithms, error metrics are proposed, since the algorithms have several tunable parameters. To facilitate the tuning and analysis process, error surfaces are constructed with parameter variations, in order to observe the parametric sensitivities in the algorithm in relation to the error metrics and to evaluate the solvability and convergence, facilitating the observer tuning process. The application of the proposed methodologies has advantages such as the lack of modeling or dynamical system identification, the incorporation of dynamic changes through the use of approaches based on reinforcement learning, in addition to helping in the tuning and analysis process. Keywords:
Palavras-chave:	observadores de estado; programação dinâmica aproximada; aprendizagem por reforço; controle ótimo; realimentação de saída; sistemas dinâmicos; sintonia; state observers; approximate dynamic programming; reinforcement learning; reinforcement Learning; optimal control; output feedback; dynamical systems;
Área(s) do CNPq:	Ciência da Computação
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET
Citação:	SILVA, Fábio Nogueira da. Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço. 2021. 135 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2021 .
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/3695
Data de defesa:	18-Ago-2021
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
FábioNogueira.pdf		13,36 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações