Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/3695
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSILVA, Fábio Nogueira da-
dc.creator.Latteshttp://lattes.cnpq.br/5511345384390672por
dc.contributor.advisor1FONSECA NETO, João Viana da-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0029055473709795por
dc.contributor.referee1FONSECA NETO, João Viana da-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/0029055473709795por
dc.contributor.referee2SERRA, Ginalber Luiz de Oliveira-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0831092299374520por
dc.contributor.referee3SOUZA, Francisco das Chagas de-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/2405363087479257por
dc.contributor.referee4BARRA JUNIOR, Walter-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/0492699174212608por
dc.contributor.referee5SILVEIRA, Antônio da Silva-
dc.contributor.referee5Latteshttp://lattes.cnpq.br/1828468407562753por
dc.date.accessioned2022-06-15T16:59:18Z-
dc.date.issued2022-08-18-
dc.identifier.citationSILVA, Fábio Nogueira da. Observadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforço. 2022. 135 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2022 .por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/tede/3695-
dc.description.resumoFormulações para observadores de estado para sistemas dinâmicos, baseados nos fundamentos de programação dinâmica aproximada (ADP), controle ótimo e aprendizagem por reforço são propostos, desenvolvidos, aplicadas e analisadas nesta Tese. São ainda apresentadas propostas de algoritmos, métricas para avaliação de desempenho, análises de robustez, convergência e solvabilidade. Estudos sobre sensibilidade paramétrica dos algoritmos, com relação aos sinais de ruídos, condições iniciais dos parâmetros e estados iniciais do sistema dinâmico são apresentadas. A fundamentação para os observadores propostos, são baseados em programação dinâmica apro ximada, com aproximação da função valorada realizada por um algoritmo de aprendizagem por reforço (RL), usando o erro de diferenças temporais, visando o acoplamento dos observadores para aplicações on-line, podendo também ser implementados off-line. A formulação do obser vador é fundamentada no problema de controle ótimo discreto, associado ao regulador linear quadrático (DLQR) com realimentação de saída, necessitando somente dos sinais de entrada e saídas mensuradas. Para estimação de estado com estrutura baseada em ADP, é necessário a disponibilidade de duas matrizes, sendo proposta uma formulação que resulta em um sistema de equações algébricas não lineares para recuperação das matrizes. Para a solução desse problema, são aplicados inicialmente uma rede neuronal direta multicamada, mas por possuiu uma comple xidade computacional elevada ao longo do processo iterativo, tal solução se verificou inviável. Uma alternativa baseada em uma aproximação é proposta, não sendo necessário solucionar o sistema de equações e com isso diminuindo a complexidade computacional. Para avaliar o desem penho dos algoritmos são propostos métricas de erro, visto que os algoritmos possuem diversos parâmetros sintonizáveis. Para facilitar o processo de sintonia e análise são construídas superfí cies de erros com variações dos parâmetros, a fim de observar as sensibilidades paramétricas no algoritmo com relação as métricas de erro e avaliar a solvabilidade e convergência, facilitando o processo de sintonia do observador. A aplicação das metodologias propostas apresenta vantagens como a não necessidade de modelagem ou identificação do sistema dinâmico, da incorporação de mudanças de dinâmica pelo uso de abordagens baseadas em aprendizagem por reforço, além do auxílio no processo de sintonia e análise.por
dc.description.abstractFormulations for state observers for dynamical systems, based on the fundamentals of approxi mate dynamic programming (ADP), optimal control and reinforcement learning are proposed, developed, applied and analyzed in this Thesis. Algorithm proposals, metrics for performance evaluation, robustness, convergence and solvability analysis are also presented. Studies on para metric sensitivity of the algorithms, with respect to noise signals, initial conditions of parameters and initial states of the dynamic system are presented. The rationale for the proposed observers is based on approximate dynamic programming, with approximation of the valued function performed by a reinforcement learning algorithm (RL), using the temporal differences errors, aiming at the coupling of observers for online applications, being able to also be implemented offline. The observer’s formulation is based on the discrete optimal control problem, associated with the discrete linear quadratic regulator (DLQR) with output feedback, requiring only the measured input and output signals. For state estimation with ADP-based structure, the availability of two matrices is necessary, and a formulation is proposed that results in a system of nonlinear algebraic equations for matrix recovery. To solve this problem, a feedforward multi layer neural network is initially applied, but due to its high computational complexity throughout the iterative process, such a solution was found to be unfeasible. An alternative based on an approxima tion is proposed, not being necessary to solve the system of equations and thus reducing the computational complexity. To evaluate the performance of the algorithms, error metrics are proposed, since the algorithms have several tunable parameters. To facilitate the tuning and analysis process, error surfaces are constructed with parameter variations, in order to observe the parametric sensitivities in the algorithm in relation to the error metrics and to evaluate the solvability and convergence, facilitating the observer tuning process. The application of the proposed methodologies has advantages such as the lack of modeling or dynamical system identification, the incorporation of dynamic changes through the use of approaches based on reinforcement learning, in addition to helping in the tuning and analysis process. Keywords:eng
dc.description.provenanceSubmitted by Daniella Santos (daniella.santos@ufma.br) on 2022-06-15T16:59:18Z No. of bitstreams: 1 FelipeBezerraPimentelAraújo.pdf: 1228718 bytes, checksum: 096c68ed0fe59863f629c9fa83aabdf4 (MD5)eng
dc.description.provenanceMade available in DSpace on 2022-06-15T16:59:18Z (GMT). No. of bitstreams: 1 FelipeBezerraPimentelAraújo.pdf: 1228718 bytes, checksum: 096c68ed0fe59863f629c9fa83aabdf4 (MD5) Previous issue date: 2022-08-18eng
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCETpor
dc.rightsAcesso Abertopor
dc.subjectobservadores de estado;por
dc.subjectprogramação dinâmica aproximada;por
dc.subjectaprendizagem por reforço;por
dc.subjectcontrole ótimo;por
dc.subjectrealimentação de saída;por
dc.subjectsistemas dinâmicos;por
dc.subjectsintonia;por
dc.subjectstate observers;eng
dc.subjectapproximate dynamic programming;eng
dc.subjectreinforcement learning;eng
dc.subjectreinforcement Learning;eng
dc.subjectoptimal control;eng
dc.subjectoutput feedback;eng
dc.subjectdynamical systems;eng
dc.subject.cnpqCiência da Computaçãopor
dc.titleObservadores de estado orientados por dados: sintonia, programação dinâmica aproximada e aprendizagem por reforçopor
dc.title.alternativeData-driven state observers: tuning, approximate dynamic programming, and reinforcement learningeng
dc.typeTesepor
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
FelipeBezerraPimentelAraújo.pdfTese de Doutorado1,2 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.