Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/3845
Registro completo de metadados
Campo DCValorIdioma
dc.creatorYÁNEZ, Williams Jesús López-
dc.creator.Latteshttp://lattes.cnpq.br/2233691075409685por
dc.contributor.advisor1SOUZA, Francisco das Chagas de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2405363087479257por
dc.contributor.referee1SOUZA, Francisco das Chagas de-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/2405363087479257por
dc.contributor.referee2FONSECA NETO, João Viana da-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/0029055473709795por
dc.contributor.referee3SERRA, Ginalber Luiz de Oliveira-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/0831092299374520por
dc.contributor.referee4RÊGO, Patrícia Helena Moraes-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/6535271381344851por
dc.contributor.referee5CORTES, Omar Andres Carmona-
dc.contributor.referee5Latteshttp://lattes.cnpq.br/5523293886612004por
dc.date.accessioned2022-07-12T13:02:13Z-
dc.date.issued2022-05-13-
dc.identifier.citationYÁNEZ, Williams Jesús López. Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa. 2022. 127 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2022.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/tede/3845-
dc.description.resumoQ-learning é um método de aprendizagem por reforço (RL - reinforcement learning), livre de modelo, que é usado para resolver o problema de controle ótimo baseado na aprendiza- gem da função valor de ação (ou função Q). A maneira usual de aprender a função valor de ação é resolver uma equação de Bellman. Nesta tese, para resolver a equação de Bell- man no problema de controle ótimo LQR, um algoritmo de filtragem adaptativa baseado no algoritmo de mínimo quadrado médio normalizado (NLMS - normalized least-mean- squares) é usado ao invés do algoritmo de mínimos quadrados recursivos (RLS - recursive least-squares). Um requerimento geral para obter convergência em algoritmos de filtragem adaptativa é a condição de persistência de excitação. A persistência de excitação é uma condição imposta de maneira que a matriz formada pelos vetores de regressores tenha to- das as colunas linearmente independentes. No contexto de controle ótimo via Q-learning, a persistência de excitação é obtida adicionando um ruído de prova na ação de controle. O ruído de prova afeta os estados do sistema real e pode afetar o desempenho do filtro adaptativo na solução da equação de Bellman. Neste trabalho, realiza-se um estudo sobre o efeito do ruído de prova baseado nas matrizes de covariância dos estados e entradas de controle do sistema, onde uma fórmula fechada e propriedades de convergência de ditas matrizes são obtidas. Além disso, verifica-se através de experimentos numéricos que o algoritmo NLMS apresenta desempenho superior quando comparado ao algoritmo RLS, nos casos em que o ruído de prova tem pequena variância. O uso do algoritmo NLMS em nossa abordagem apresenta duas vantagens: a primeira, o algoritmo NLMS apresenta me- nor complexidade computacional quando comparado ao algoritmo RLS; a segunda, para obter a persistência da condição de excitação, pode-se usar ruídos de prova com baixa variância, o que é desejável em aplicações do mundo real.por
dc.description.abstractQ-learning is a reinforcement learning (RL) method, model-free, that is used to solve the optimal control problem based on learning the action value function (or function Q). The usual way to learn the action value function is to solve a Bellman equation. In this thesis, to solve the Bellman equation in the LQR optimal control problem, an adaptive filtering algorithm based on the normalized least-mean-square (NLMS) algorithm is used instead of the recursive least-squares (RLS). A general requirement for achieving convergence in adaptive filtering algorithms is the excitation persistence condition. The persistence of excitation is a condition imposed so that the matrix formed by the regressor vectors has all columns linearly independent. In the context of optimal control via Q-learning, persistence of excitation is obtained by adding a probe noise to the control action. The probe noise affects real system states and may affect the performance of the adaptive filter in solving the Bellman equation. In this work, a study is carried out on the effect of probe noise based on the covariance matrices of the states and control inputs of the system, where a closed formula and convergence properties of such matrices are obtained. Furthermore, it is verified through numerical experiments that the NLMS algorithm presents superior performance when compared to the RLS algorithm, in cases where the probe noise has small variance. The use of the NLMS algorithm in our approach has two advantages: first, the NLMS algorithm presents lower computational complexity when compared to the RLS algorithm; the second, to obtain the persistence of the excitation condition, one can use probe noises with low variance, which is desirable in real-world applications.eng
dc.description.provenanceSubmitted by Jonathan Sousa de Almeida (jonathan.sousa@ufma.br) on 2022-07-12T13:02:13Z No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5)eng
dc.description.provenanceMade available in DSpace on 2022-07-12T13:02:13Z (GMT). No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5) Previous issue date: 2022-05-13eng
dc.description.sponsorshipUFMApor
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCETpor
dc.rightsAcesso Abertopor
dc.subjectaprendizagem por reforço;por
dc.subjectControle ótimo discreto LQR;por
dc.subjectpersistência de excitação;por
dc.subjectQ-learning;por
dc.subjectruído de prova.por
dc.subjectreinforcement learning;eng
dc.subjectOptimal discrete LQR control;eng
dc.subjectpersistence of excitation;eng
dc.subjectQ-learning;eng
dc.subjectprobe noise.eng
dc.subject.cnpqCiência da Computaçãopor
dc.titleEfeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativapor
dc.title.alternativeEffect of Proof Noise on Optimal LQR Control via Q-Learning based on Adaptive Filteringeng
dc.typeTesepor
Aparece nas coleções:TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
WILLIAMSJESÚSLÓPEZYÁNEZ.pdfTese de Doutorado2,78 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.