Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/3845

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	YÁNEZ, Williams Jesús López	-
dc.creator.Lattes	http://lattes.cnpq.br/2233691075409685	por
dc.contributor.advisor1	SOUZA, Francisco das Chagas de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2405363087479257	por
dc.contributor.referee1	SOUZA, Francisco das Chagas de	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/2405363087479257	por
dc.contributor.referee2	FONSECA NETO, João Viana da	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/0029055473709795	por
dc.contributor.referee3	SERRA, Ginalber Luiz de Oliveira	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/0831092299374520	por
dc.contributor.referee4	RÊGO, Patrícia Helena Moraes	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/6535271381344851	por
dc.contributor.referee5	CORTES, Omar Andres Carmona	-
dc.contributor.referee5Lattes	http://lattes.cnpq.br/5523293886612004	por
dc.date.accessioned	2022-07-12T13:02:13Z	-
dc.date.issued	2022-05-13	-
dc.identifier.citation	YÁNEZ, Williams Jesús López. Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa. 2022. 127 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2022.	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/3845	-
dc.description.resumo	Q-learning é um método de aprendizagem por reforço (RL - reinforcement learning), livre de modelo, que é usado para resolver o problema de controle ótimo baseado na aprendiza- gem da função valor de ação (ou função Q). A maneira usual de aprender a função valor de ação é resolver uma equação de Bellman. Nesta tese, para resolver a equação de Bell- man no problema de controle ótimo LQR, um algoritmo de filtragem adaptativa baseado no algoritmo de mínimo quadrado médio normalizado (NLMS - normalized least-mean- squares) é usado ao invés do algoritmo de mínimos quadrados recursivos (RLS - recursive least-squares). Um requerimento geral para obter convergência em algoritmos de filtragem adaptativa é a condição de persistência de excitação. A persistência de excitação é uma condição imposta de maneira que a matriz formada pelos vetores de regressores tenha to- das as colunas linearmente independentes. No contexto de controle ótimo via Q-learning, a persistência de excitação é obtida adicionando um ruído de prova na ação de controle. O ruído de prova afeta os estados do sistema real e pode afetar o desempenho do filtro adaptativo na solução da equação de Bellman. Neste trabalho, realiza-se um estudo sobre o efeito do ruído de prova baseado nas matrizes de covariância dos estados e entradas de controle do sistema, onde uma fórmula fechada e propriedades de convergência de ditas matrizes são obtidas. Além disso, verifica-se através de experimentos numéricos que o algoritmo NLMS apresenta desempenho superior quando comparado ao algoritmo RLS, nos casos em que o ruído de prova tem pequena variância. O uso do algoritmo NLMS em nossa abordagem apresenta duas vantagens: a primeira, o algoritmo NLMS apresenta me- nor complexidade computacional quando comparado ao algoritmo RLS; a segunda, para obter a persistência da condição de excitação, pode-se usar ruídos de prova com baixa variância, o que é desejável em aplicações do mundo real.	por
dc.description.abstract	Q-learning is a reinforcement learning (RL) method, model-free, that is used to solve the optimal control problem based on learning the action value function (or function Q). The usual way to learn the action value function is to solve a Bellman equation. In this thesis, to solve the Bellman equation in the LQR optimal control problem, an adaptive filtering algorithm based on the normalized least-mean-square (NLMS) algorithm is used instead of the recursive least-squares (RLS). A general requirement for achieving convergence in adaptive filtering algorithms is the excitation persistence condition. The persistence of excitation is a condition imposed so that the matrix formed by the regressor vectors has all columns linearly independent. In the context of optimal control via Q-learning, persistence of excitation is obtained by adding a probe noise to the control action. The probe noise affects real system states and may affect the performance of the adaptive filter in solving the Bellman equation. In this work, a study is carried out on the effect of probe noise based on the covariance matrices of the states and control inputs of the system, where a closed formula and convergence properties of such matrices are obtained. Furthermore, it is verified through numerical experiments that the NLMS algorithm presents superior performance when compared to the RLS algorithm, in cases where the probe noise has small variance. The use of the NLMS algorithm in our approach has two advantages: first, the NLMS algorithm presents lower computational complexity when compared to the RLS algorithm; the second, to obtain the persistence of the excitation condition, one can use probe noises with low variance, which is desirable in real-world applications.	eng
dc.description.provenance	Submitted by Jonathan Sousa de Almeida (jonathan.sousa@ufma.br) on 2022-07-12T13:02:13Z No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5)	eng
dc.description.provenance	Made available in DSpace on 2022-07-12T13:02:13Z (GMT). No. of bitstreams: 1 WILLIAMSJESÚSLÓPEZYÁNEZ.pdf: 2848868 bytes, checksum: 1c7f933f0fd1e314b6e0d1a661d5467b (MD5) Previous issue date: 2022-05-13	eng
dc.description.sponsorship	UFMA	por
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	aprendizagem por reforço;	por
dc.subject	Controle ótimo discreto LQR;	por
dc.subject	persistência de excitação;	por
dc.subject	Q-learning;	por
dc.subject	ruído de prova.	por
dc.subject	reinforcement learning;	eng
dc.subject	Optimal discrete LQR control;	eng
dc.subject	persistence of excitation;	eng
dc.subject	Q-learning;	eng
dc.subject	probe noise.	eng
dc.subject.cnpq	Ciência da Computação	por
dc.title	Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa	por
dc.title.alternative	Effect of Proof Noise on Optimal LQR Control via Q-Learning based on Adaptive Filtering	eng
dc.type	Tese	por
Aparece nas coleções:	TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
WILLIAMSJESÚSLÓPEZYÁNEZ.pdf	Tese de Doutorado	2,78 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações