@MASTERSTHESIS{ 2024:1584279152, title = {Escalonamento de Produção em Manufatura em Rede: uma abordagem multicritério utilizando aprendizagem por reforço}, year = {2024}, url = "https://tedebc.ufma.br/jspui/handle/tede/5666", abstract = "Um controle eficiente de fabricação desempenha um papel fundamental na capacidade da indús- tria manufatureira de atender às crescentes demandas por produção personalizada, caracterizada por rápidas mudanças nas preferências dos clientes. Para otimizar configurações de manufatura flexíveis e altamente automatizadas, é essencial incorporar decisões autônomas no planejamento e execução da produção. Contudo, o desenvolvimento de um controle de fabricação resiliente e proativo, capaz de antecipar mudanças repentinas na prática industrial, é um desafio. Isso exige ferramentas inteligentes de programação da produção. Diversas tecnologias orientadas a dados têm sido adotadas em pesquisas de programação da produção, dentre as quais a aprendizagem por reforço destaca-se por sua capacidade de mapear observações do ambiente para ações que melhoram o desempenho. Esta dissertação apresenta um framework de aprendizagem por reforço para resolver o problema de programação da produção com eventos dinâmicos em uma unidade local de uma rede de manufatura auto-otimizada, visando encontrar um cronograma de produção ótimo. O algoritmo de aprendizagem por reforço treina um agente para capturar a relação entre as informações do chão de fábrica e os critérios a serem atingidos, tomando decisões em tempo real em um sistema sujeito a eventos inesperados. Propõe-se um cenário de validação no qual o agente aceita demandas de produção considerando prioridades em relação a três critérios (econômico, sustentabilidade e variabilidade), dada a carga do sistema e os possíveis atrasos e perdas financeiras. Para isso, um ambiente de aprendizagem por reforço é implementado com software de código aberto de última geração. O ambiente, projetado como um problema de agente único, permite que o agente decida quais demandas produzir a cada passo de tempo. A função de recompensa, projetada para orientar o agente, equilibra a influência de cada critério com um fator de priorização. Implementam-se três algoritmos de Aprendizagem por Reforço: Deep Q-Network (DQN), Proximal Policy Optimization (PPO) e PPO Recorrente. O DQN é um algoritmo off-policy baseado em Q-learning que utiliza uma rede neural para aproximar a função Q. O PPO é um algoritmo on-policy baseado em gradiente de política, com destaque para sua estabilidade e eficiência. O PPO Recorrente incorpora memória, tornando-o adequado para problemas com dependências temporais, como o agendamento dinâmico. A abordagem de aprendizagem por reforço é avaliada comparando suas soluções com dados simulados. Os resultados demonstram que a abordagem gera cronogramas mais lucrativos e personalizados, ou mais sustentáveis, dependendo do critério. O desempenho do agente é influenciado pelo fator de priorização na função de recompensa.", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET}, note = {DEPARTAMENTO DE INFORMÁTICA/CCET} }