Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/3845

Tipo do documento:	Tese
Título:	Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa
Título(s) alternativo(s):	Effect of Proof Noise on Optimal LQR Control via Q-Learning based on Adaptive Filtering
Autor:	YÁNEZ, Williams Jesús López
Primeiro orientador:	SOUZA, Francisco das Chagas de
Primeiro membro da banca:	SOUZA, Francisco das Chagas de
Segundo membro da banca:	FONSECA NETO, João Viana da
Terceiro membro da banca:	SERRA, Ginalber Luiz de Oliveira
Quarto membro da banca:	RÊGO, Patrícia Helena Moraes
Quinto membro da banca:	CORTES, Omar Andres Carmona
Resumo:	Q-learning é um método de aprendizagem por reforço (RL - reinforcement learning), livre de modelo, que é usado para resolver o problema de controle ótimo baseado na aprendiza- gem da função valor de ação (ou função Q). A maneira usual de aprender a função valor de ação é resolver uma equação de Bellman. Nesta tese, para resolver a equação de Bell- man no problema de controle ótimo LQR, um algoritmo de filtragem adaptativa baseado no algoritmo de mínimo quadrado médio normalizado (NLMS - normalized least-mean- squares) é usado ao invés do algoritmo de mínimos quadrados recursivos (RLS - recursive least-squares). Um requerimento geral para obter convergência em algoritmos de filtragem adaptativa é a condição de persistência de excitação. A persistência de excitação é uma condição imposta de maneira que a matriz formada pelos vetores de regressores tenha to- das as colunas linearmente independentes. No contexto de controle ótimo via Q-learning, a persistência de excitação é obtida adicionando um ruído de prova na ação de controle. O ruído de prova afeta os estados do sistema real e pode afetar o desempenho do filtro adaptativo na solução da equação de Bellman. Neste trabalho, realiza-se um estudo sobre o efeito do ruído de prova baseado nas matrizes de covariância dos estados e entradas de controle do sistema, onde uma fórmula fechada e propriedades de convergência de ditas matrizes são obtidas. Além disso, verifica-se através de experimentos numéricos que o algoritmo NLMS apresenta desempenho superior quando comparado ao algoritmo RLS, nos casos em que o ruído de prova tem pequena variância. O uso do algoritmo NLMS em nossa abordagem apresenta duas vantagens: a primeira, o algoritmo NLMS apresenta me- nor complexidade computacional quando comparado ao algoritmo RLS; a segunda, para obter a persistência da condição de excitação, pode-se usar ruídos de prova com baixa variância, o que é desejável em aplicações do mundo real.
Abstract:	Q-learning is a reinforcement learning (RL) method, model-free, that is used to solve the optimal control problem based on learning the action value function (or function Q). The usual way to learn the action value function is to solve a Bellman equation. In this thesis, to solve the Bellman equation in the LQR optimal control problem, an adaptive filtering algorithm based on the normalized least-mean-square (NLMS) algorithm is used instead of the recursive least-squares (RLS). A general requirement for achieving convergence in adaptive filtering algorithms is the excitation persistence condition. The persistence of excitation is a condition imposed so that the matrix formed by the regressor vectors has all columns linearly independent. In the context of optimal control via Q-learning, persistence of excitation is obtained by adding a probe noise to the control action. The probe noise affects real system states and may affect the performance of the adaptive filter in solving the Bellman equation. In this work, a study is carried out on the effect of probe noise based on the covariance matrices of the states and control inputs of the system, where a closed formula and convergence properties of such matrices are obtained. Furthermore, it is verified through numerical experiments that the NLMS algorithm presents superior performance when compared to the RLS algorithm, in cases where the probe noise has small variance. The use of the NLMS algorithm in our approach has two advantages: first, the NLMS algorithm presents lower computational complexity when compared to the RLS algorithm; the second, to obtain the persistence of the excitation condition, one can use probe noises with low variance, which is desirable in real-world applications.
Palavras-chave:	aprendizagem por reforço; Controle ótimo discreto LQR; persistência de excitação; Q-learning; ruído de prova. reinforcement learning; Optimal discrete LQR control; persistence of excitation; Q-learning; probe noise.
Área(s) do CNPq:	Ciência da Computação
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET
Citação:	YÁNEZ, Williams Jesús López. Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa. 2022. 127 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2022.
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/3845
Data de defesa:	13-Mai-2022
Aparece nas coleções:	TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
WILLIAMSJESÚSLÓPEZYÁNEZ.pdf	Tese de Doutorado	2,78 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações