@PHDTHESIS{ 2022:887010049, title = {Efeito do ruído de Prova no Controle Ótimo LQR via Q-Learning baseado em filtragem adaptativa}, year = {2022}, url = "https://tedebc.ufma.br/jspui/handle/tede/tede/3845", abstract = "Q-learning é um método de aprendizagem por reforço (RL - reinforcement learning), livre de modelo, que é usado para resolver o problema de controle ótimo baseado na aprendiza- gem da função valor de ação (ou função Q). A maneira usual de aprender a função valor de ação é resolver uma equação de Bellman. Nesta tese, para resolver a equação de Bell- man no problema de controle ótimo LQR, um algoritmo de filtragem adaptativa baseado no algoritmo de mínimo quadrado médio normalizado (NLMS - normalized least-mean- squares) é usado ao invés do algoritmo de mínimos quadrados recursivos (RLS - recursive least-squares). Um requerimento geral para obter convergência em algoritmos de filtragem adaptativa é a condição de persistência de excitação. A persistência de excitação é uma condição imposta de maneira que a matriz formada pelos vetores de regressores tenha to- das as colunas linearmente independentes. No contexto de controle ótimo via Q-learning, a persistência de excitação é obtida adicionando um ruído de prova na ação de controle. O ruído de prova afeta os estados do sistema real e pode afetar o desempenho do filtro adaptativo na solução da equação de Bellman. Neste trabalho, realiza-se um estudo sobre o efeito do ruído de prova baseado nas matrizes de covariância dos estados e entradas de controle do sistema, onde uma fórmula fechada e propriedades de convergência de ditas matrizes são obtidas. Além disso, verifica-se através de experimentos numéricos que o algoritmo NLMS apresenta desempenho superior quando comparado ao algoritmo RLS, nos casos em que o ruído de prova tem pequena variância. O uso do algoritmo NLMS em nossa abordagem apresenta duas vantagens: a primeira, o algoritmo NLMS apresenta me- nor complexidade computacional quando comparado ao algoritmo RLS; a segunda, para obter a persistência da condição de excitação, pode-se usar ruídos de prova com baixa variância, o que é desejável em aplicações do mundo real.", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET}, note = {DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET} }