@MASTERSTHESIS{ 2014:1938026506,
 	title = {Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço.},
 	year = {2014},
 	url = "http://tedebc.ufma.br:8080/jspui/handle/tede/1891",
 	abstract = "A técnica de controle linear baseado na minimização de um índices de desempenho quadrático utilizando o segundo método de Liapunov garante a estabilidade do sistema, se este for controlável e observável. Por outro lado, nessa técnica inexoravelmente é necessário encontrar a solução da Equação Hamilton-Jacobi-Bellman (HJB) ou Riccati. Em projeto de sistema de controle online que necessita, em tempo real, alterar seus ganhos de retroação para manter uma certa dinâmica, impõe o cálculo da solução da equação de Riccati em cada instante de amostragem gerando uma grande carga computacional que pode inviabilizar sua implementação. Neste trabalho, mostra-se o projeto de um sistema de controle inteligente que encontra a ação de controle ótima ou subótima a partir de dados sensoriais dos estados do processo e do custo instantâneo observados após cada transição de estado. Para encontrar essa ação de controle ou política ótima, a programação dinâmica aproximada ou críticos adaptativos são utilizados, tendo como base as parametrizações dado pelo problema do regulador linear quadrático (LQR), mas sem resolver explicitamente a equação de Riccati associada. Mais especificamente, o problema do LQR é resolvido por quatro métodos distintos que são os algoritmos de Programação Dinâmica Heurística, a Programação Dinâmica Heurística Dual, a Programação Dinâmica Heurística Dependente de Ação e a Programação Dinâmica Heurística Dual Dependente de Ação. Entretanto, esses algoritmos dependem do conhecimento das funções valor para, assim, derivar as ações de controle ótimas. Essas funções valor com estruturas conhecidas tem seus parâmetros estimados utilizando os algoritmos da família dos mínimos quadrados médios e o algoritmo de Mínimos Quadrados Recursivo. Dois processos que obedecem à propriedade de Markov foram empregados na validação computacional dos algoritmos críticos adaptativos, um corresponde à dinâmica longitudinal de uma aeronave e o outro à de um circuito elétrico.",
 	publisher = {Universidade Federal do Maranhão},
 	scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET},
 	note = {DEPARTAMENTO  DE ENGENHARIA DA ELETRICIDADE/CCET}
}