Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço.

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/1891

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	SILVA, Márcio Eduardo Gonçalves	-
dc.creator.Lattes	http://lattes.cnpq.br/2946298124856628	por
dc.contributor.advisor1	FONSECA NETO, João Viana da	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0029055473709795	por
dc.contributor.advisor-co1	SOUZA, Francisco das Chagas de	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/2405363087479257	por
dc.contributor.referee1	FONSECA NETO, João Viana da	-
dc.contributor.referee2	SOUZA, Francisco das Chagas de	-
dc.contributor.referee3	PINTO, Vandilberto Pereira	-
dc.contributor.referee4	SANTANA, Ewaldo Eder Carvalho	-
dc.date.accessioned	2017-09-04T13:10:41Z	-
dc.date.issued	2014-08-21	-
dc.identifier.citation	SILVA, Márcio Eduardo Gonçalves. Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço.. 2014. [170 folhas]. Dissertação( PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET) - Universidade Federal do Maranhão, [São Luís] .	por
dc.identifier.uri	http://tedebc.ufma.br:8080/jspui/handle/tede/1891	-
dc.description.resumo	A técnica de controle linear baseado na minimização de um índices de desempenho quadrático utilizando o segundo método de Liapunov garante a estabilidade do sistema, se este for controlável e observável. Por outro lado, nessa técnica inexoravelmente é necessário encontrar a solução da Equação Hamilton-Jacobi-Bellman (HJB) ou Riccati. Em projeto de sistema de controle online que necessita, em tempo real, alterar seus ganhos de retroação para manter uma certa dinâmica, impõe o cálculo da solução da equação de Riccati em cada instante de amostragem gerando uma grande carga computacional que pode inviabilizar sua implementação. Neste trabalho, mostra-se o projeto de um sistema de controle inteligente que encontra a ação de controle ótima ou subótima a partir de dados sensoriais dos estados do processo e do custo instantâneo observados após cada transição de estado. Para encontrar essa ação de controle ou política ótima, a programação dinâmica aproximada ou críticos adaptativos são utilizados, tendo como base as parametrizações dado pelo problema do regulador linear quadrático (LQR), mas sem resolver explicitamente a equação de Riccati associada. Mais especificamente, o problema do LQR é resolvido por quatro métodos distintos que são os algoritmos de Programação Dinâmica Heurística, a Programação Dinâmica Heurística Dual, a Programação Dinâmica Heurística Dependente de Ação e a Programação Dinâmica Heurística Dual Dependente de Ação. Entretanto, esses algoritmos dependem do conhecimento das funções valor para, assim, derivar as ações de controle ótimas. Essas funções valor com estruturas conhecidas tem seus parâmetros estimados utilizando os algoritmos da família dos mínimos quadrados médios e o algoritmo de Mínimos Quadrados Recursivo. Dois processos que obedecem à propriedade de Markov foram empregados na validação computacional dos algoritmos críticos adaptativos, um corresponde à dinâmica longitudinal de uma aeronave e o outro à de um circuito elétrico.	por
dc.description.abstract	The technique of linear control based on the minimization of a quadratic performance index using the second method of Lyapunov to guarantee the stability of the system, if this is controllable and observable. however, this technique is inevitably necessary to find the solution of the HJB or Riccati equation. The control system design online need, real time, to adjust your feedback gain to maintain a certain dynamic, it requires the calculation of the Riccati equation solution in each sampling generating a large computational load that can derail its implementation. This work shows an intelligent control system design that meets the optimal or suboptimal control action from the sensory data of process states and the instantaneous cost observed after each state transition. To find this optimal control action or policy, the approximate dynamic programming and adaptive critics are used, based on the parameterizations given by the problem of linear quadratic regulator (LQR), but without explicitly solving the associated Riccati equation. More specifically, the LQR problem is solved by four different methods which are the Dynamic Programming Heuristic, the Dual Heuristic Dynamic Programming, Action Dependent Dynamic Programming Heuristic and Action Dependent Dual Heuristic Dynamic Programming algorithms. However, these algorithms depend on knowledge of the value functions to derive the optimal control actions. These value functions with known structures have their parameters estimated using the least mean square family and Recursive Least Squares algorithms. Two processes that have the Markov property were used in the computational validation of the algorithms adaptive critics implemented, one corresponds to the longitudinal dynamics of an aircraft and the other to an electrical circuit.	eng
dc.description.provenance	Submitted by Maria Aparecida (cidazen@gmail.com) on 2017-09-04T13:10:41Z No. of bitstreams: 1 Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2017-09-04T13:10:41Z (GMT). No. of bitstreams: 1 Marcio Eduardo.pdf: 7939176 bytes, checksum: 3b90c4b32aeabafd3b87e4f3c36d2ed6 (MD5) Previous issue date: 2014-08-21	eng
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	Programação Dinâmica; Aprendizagem por Reforço; Regulador Linear Quadrático; Crítico Adaptativo	por
dc.subject	Dynamic Programming; Reinforcement Learning; Linear Quadratic Regulator; Adaptive critic	eng
dc.subject.cnpq	Sistemas de Computação	por
dc.title	Algoritmos da Família LMS para a Solução Aproximada da HJB em Projetos Online de Controle Ótimo Discreto Multivariável e Aprendizado por Reforço.	por
dc.title.alternative	Family LMS algorithms for Approximate Solution the HJB Online projects of Discrete optimal control Multivariable and reinforcement Learning .	eng
dc.type	Dissertação	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Marcio Eduardo.pdf	Dissertação de Mestrado	7,75 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações