Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/3695

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	SILVA, Fábio Nogueira da	-
dc.creator.Lattes	http://lattes.cnpq.br/5511345384390672	por
dc.contributor.advisor1	FONSECA NETO, João Viana da	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0029055473709795	por
dc.contributor.referee1	FONSECA NETO, João Viana da	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/0029055473709795	por
dc.contributor.referee2	SERRA, Ginalber Luiz de Oliveira	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/0831092299374520	por
dc.contributor.referee3	SOUZA, Francisco das Chagas de	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/2405363087479257	por
dc.contributor.referee4	BARRA JUNIOR, Walter	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/0492699174212608	por
dc.contributor.referee5	SILVEIRA, Antônio da Silva	-
dc.contributor.referee5Lattes	http://lattes.cnpq.br/1828468407562753	por
dc.date.accessioned	2022-06-15T16:59:18Z	-
dc.date.issued	2021-08-18	-
dc.identifier.citation	SILVA, Fábio Nogueira da. Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço. 2021. 135 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2021 .	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/3695	-
dc.description.resumo	Formulações para observadores de estado para sistemas dinâmicos, baseados nos fundamentos de programação dinâmica aproximada (ADP), controle ótimo e aprendizagem por reforço são propostos, desenvolvidos, aplicadas e analisadas nesta Tese. São ainda apresentadas propostas de algoritmos, métricas para avaliação de desempenho, análises de robustez, convergência e solvabilidade. Estudos sobre sensibilidade paramétrica dos algoritmos, com relação aos sinais de ruídos, condições iniciais dos parâmetros e estados iniciais do sistema dinâmico são apresentadas. A fundamentação para os observadores propostos, são baseados em programação dinâmica apro ximada, com aproximação da função valorada realizada por um algoritmo de aprendizagem por reforço (RL), usando o erro de diferenças temporais, visando o acoplamento dos observadores para aplicações on-line, podendo também ser implementados off-line. A formulação do obser vador é fundamentada no problema de controle ótimo discreto, associado ao regulador linear quadrático (DLQR) com realimentação de saída, necessitando somente dos sinais de entrada e saídas mensuradas. Para estimação de estado com estrutura baseada em ADP, é necessário a disponibilidade de duas matrizes, sendo proposta uma formulação que resulta em um sistema de equações algébricas não lineares para recuperação das matrizes. Para a solução desse problema, são aplicados inicialmente uma rede neuronal direta multicamada, mas por possuiu uma comple xidade computacional elevada ao longo do processo iterativo, tal solução se verificou inviável. Uma alternativa baseada em uma aproximação é proposta, não sendo necessário solucionar o sistema de equações e com isso diminuindo a complexidade computacional. Para avaliar o desem penho dos algoritmos são propostos métricas de erro, visto que os algoritmos possuem diversos parâmetros sintonizáveis. Para facilitar o processo de sintonia e análise são construídas superfí cies de erros com variações dos parâmetros, a fim de observar as sensibilidades paramétricas no algoritmo com relação as métricas de erro e avaliar a solvabilidade e convergência, facilitando o processo de sintonia do observador. A aplicação das metodologias propostas apresenta vantagens como a não necessidade de modelagem ou identificação do sistema dinâmico, da incorporação de mudanças de dinâmica pelo uso de abordagens baseadas em aprendizagem por reforço, além do auxílio no processo de sintonia e análise.	por
dc.description.abstract	Formulations for state observers for dynamical systems, based on the fundamentals of approxi mate dynamic programming (ADP), optimal control and reinforcement learning are proposed, developed, applied and analyzed in this Thesis. Algorithm proposals, metrics for performance evaluation, robustness, convergence and solvability analysis are also presented. Studies on para metric sensitivity of the algorithms, with respect to noise signals, initial conditions of parameters and initial states of the dynamic system are presented. The rationale for the proposed observers is based on approximate dynamic programming, with approximation of the valued function performed by a reinforcement learning algorithm (RL), using the temporal differences errors, aiming at the coupling of observers for online applications, being able to also be implemented offline. The observer’s formulation is based on the discrete optimal control problem, associated with the discrete linear quadratic regulator (DLQR) with output feedback, requiring only the measured input and output signals. For state estimation with ADP-based structure, the availability of two matrices is necessary, and a formulation is proposed that results in a system of nonlinear algebraic equations for matrix recovery. To solve this problem, a feedforward multi layer neural network is initially applied, but due to its high computational complexity throughout the iterative process, such a solution was found to be unfeasible. An alternative based on an approxima tion is proposed, not being necessary to solve the system of equations and thus reducing the computational complexity. To evaluate the performance of the algorithms, error metrics are proposed, since the algorithms have several tunable parameters. To facilitate the tuning and analysis process, error surfaces are constructed with parameter variations, in order to observe the parametric sensitivities in the algorithm in relation to the error metrics and to evaluate the solvability and convergence, facilitating the observer tuning process. The application of the proposed methodologies has advantages such as the lack of modeling or dynamical system identification, the incorporation of dynamic changes through the use of approaches based on reinforcement learning, in addition to helping in the tuning and analysis process. Keywords:	eng
dc.description.provenance	Submitted by Daniella Santos (daniella.santos@ufma.br) on 2022-06-15T16:59:18Z No. of bitstreams: 1 FelipeBezerraPimentelAraújo.pdf: 1228718 bytes, checksum: 096c68ed0fe59863f629c9fa83aabdf4 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-06-15T16:59:18Z (GMT). No. of bitstreams: 1 FelipeBezerraPimentelAraújo.pdf: 1228718 bytes, checksum: 096c68ed0fe59863f629c9fa83aabdf4 (MD5) Previous issue date: 2022-08-18	eng
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	observadores de estado;	por
dc.subject	programação dinâmica aproximada;	por
dc.subject	aprendizagem por reforço;	por
dc.subject	controle ótimo;	por
dc.subject	realimentação de saída;	por
dc.subject	sistemas dinâmicos;	por
dc.subject	sintonia;	por
dc.subject	state observers;	eng
dc.subject	approximate dynamic programming;	eng
dc.subject	reinforcement learning;	eng
dc.subject	reinforcement Learning;	eng
dc.subject	optimal control;	eng
dc.subject	output feedback;	eng
dc.subject	dynamical systems;	eng
dc.subject.cnpq	Ciência da Computação	por
dc.title	Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço	por
dc.title.alternative	Data-driven state observers: tuning, approximate dynamic programming, and reinforcement learning	eng
dc.type	Tese	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
FábioNogueira.pdf		13,36 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações