@PHDTHESIS{ 2022:1508532487,
 	title = {Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço},
 	year = {2022},
 	url = "https://tedebc.ufma.br/jspui/handle/tede/tede/3695",
 	abstract = "Formulações para observadores de estado para sistemas dinâmicos, baseados nos fundamentos de programação dinâmica aproximada (ADP), controle ótimo e aprendizagem por reforço são propostos, desenvolvidos, aplicadas e analisadas nesta Tese. São ainda apresentadas propostas de algoritmos, métricas para avaliação de desempenho, análises de robustez, convergência e solvabilidade. Estudos sobre sensibilidade paramétrica dos algoritmos, com relação aos sinais de ruídos, condições iniciais dos parâmetros e estados iniciais do sistema dinâmico são apresentadas. A fundamentação para os observadores propostos, são baseados em programação dinâmica apro ximada, com aproximação da função valorada realizada por um algoritmo de aprendizagem por reforço (RL), usando o erro de diferenças temporais, visando o acoplamento dos observadores para aplicações on-line, podendo também ser implementados off-line. A formulação do obser vador é fundamentada no problema de controle ótimo discreto, associado ao regulador linear quadrático (DLQR) com realimentação de saída, necessitando somente dos sinais de entrada e saídas mensuradas. Para estimação de estado com estrutura baseada em ADP, é necessário a disponibilidade de duas matrizes, sendo proposta uma formulação que resulta em um sistema de equações algébricas não lineares para recuperação das matrizes. Para a solução desse problema, são aplicados inicialmente uma rede neuronal direta multicamada, mas por possuiu uma comple xidade computacional elevada ao longo do processo iterativo, tal solução se verificou inviável. Uma alternativa baseada em uma aproximação é proposta, não sendo necessário solucionar o sistema de equações e com isso diminuindo a complexidade computacional. Para avaliar o desem penho dos algoritmos são propostos métricas de erro, visto que os algoritmos possuem diversos parâmetros sintonizáveis. Para facilitar o processo de sintonia e análise são construídas superfí cies de erros com variações dos parâmetros, a fim de observar as sensibilidades paramétricas no algoritmo com relação as métricas de erro e avaliar a solvabilidade e convergência, facilitando o processo de sintonia do observador. A aplicação das metodologias propostas apresenta vantagens como a não necessidade de modelagem ou identificação do sistema dinâmico, da incorporação de mudanças de dinâmica pelo uso de abordagens baseadas em aprendizagem por reforço, além do auxílio no processo de sintonia e análise.",
 	publisher = {Universidade Federal do Maranhão},
 	scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET},
 	note = {DEPARTAMENTO  DE ENGENHARIA DA ELETRICIDADE/CCET}
}