Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
https://tedebc.ufma.br/jspui/handle/tede/5666
Tipo do documento: | Dissertação |
Título: | Escalonamento de Produção em Manufatura em Rede: uma abordagem multicritério utilizando aprendizagem por reforço |
Título(s) alternativo(s): | Production Scheduling in Networked Manufacturing: A Multi-Criteria Approach Using Reinforcement Learning |
Autor: | FERREIRA, Frederic Menezes ![]() |
Primeiro orientador: | OLIVEIRA, Alexandre César Muniz de |
Primeiro coorientador: | SOUZA, Bruno Feres de |
Primeiro membro da banca: | OLIVEIRA, Alexandre César Muniz de |
Segundo membro da banca: | SOUZA, Bruno Feres de |
Terceiro membro da banca: | ALMEIDA NETO, Areolino de |
Quarto membro da banca: | CHAVES, Antônio Augusto |
Resumo: | Um controle eficiente de fabricação desempenha um papel fundamental na capacidade da indús- tria manufatureira de atender às crescentes demandas por produção personalizada, caracterizada por rápidas mudanças nas preferências dos clientes. Para otimizar configurações de manufatura flexíveis e altamente automatizadas, é essencial incorporar decisões autônomas no planejamento e execução da produção. Contudo, o desenvolvimento de um controle de fabricação resiliente e proativo, capaz de antecipar mudanças repentinas na prática industrial, é um desafio. Isso exige ferramentas inteligentes de programação da produção. Diversas tecnologias orientadas a dados têm sido adotadas em pesquisas de programação da produção, dentre as quais a aprendizagem por reforço destaca-se por sua capacidade de mapear observações do ambiente para ações que melhoram o desempenho. Esta dissertação apresenta um framework de aprendizagem por reforço para resolver o problema de programação da produção com eventos dinâmicos em uma unidade local de uma rede de manufatura auto-otimizada, visando encontrar um cronograma de produção ótimo. O algoritmo de aprendizagem por reforço treina um agente para capturar a relação entre as informações do chão de fábrica e os critérios a serem atingidos, tomando decisões em tempo real em um sistema sujeito a eventos inesperados. Propõe-se um cenário de validação no qual o agente aceita demandas de produção considerando prioridades em relação a três critérios (econômico, sustentabilidade e variabilidade), dada a carga do sistema e os possíveis atrasos e perdas financeiras. Para isso, um ambiente de aprendizagem por reforço é implementado com software de código aberto de última geração. O ambiente, projetado como um problema de agente único, permite que o agente decida quais demandas produzir a cada passo de tempo. A função de recompensa, projetada para orientar o agente, equilibra a influência de cada critério com um fator de priorização. Implementam-se três algoritmos de Aprendizagem por Reforço: Deep Q-Network (DQN), Proximal Policy Optimization (PPO) e PPO Recorrente. O DQN é um algoritmo off-policy baseado em Q-learning que utiliza uma rede neural para aproximar a função Q. O PPO é um algoritmo on-policy baseado em gradiente de política, com destaque para sua estabilidade e eficiência. O PPO Recorrente incorpora memória, tornando-o adequado para problemas com dependências temporais, como o agendamento dinâmico. A abordagem de aprendizagem por reforço é avaliada comparando suas soluções com dados simulados. Os resultados demonstram que a abordagem gera cronogramas mais lucrativos e personalizados, ou mais sustentáveis, dependendo do critério. O desempenho do agente é influenciado pelo fator de priorização na função de recompensa. |
Abstract: | Efficient manufacturing control plays a fundamental role in the manufacturing industry’s ability to meet the growing demands for personalised production, characterised by rapid changes in customer preferences. To optimise flexible manufacturing settings marked by high automation, it is essential to incorporate autonomous decisions during production planning and execution. However, the challenge lies in developing a manufacturing control system that is resilient and, ideally, proactive, anticipating sudden changes efficiently in industrial practice. Achieving such a goal requires the use of intelligent production scheduling tools. Many data-driven technologies have been adopted in production scheduling research, with Reinforcement Learning (RL) being a promising candidate capable of establishing a direct mapping from environment observation to performance-enhancing actions. This dissertation presents an RL framework to solve the dynamic scheduling problem within a local unit of a self-optimised manufacturing network, aiming to find an optimal production schedule. The RL algorithm trains a scheduling agent, capturing the relationship between factory floor information and scheduling criteria to make real-time decisions for a manufacturing system subject to frequent unexpected events. We propose an initial validation scenario where the agent must accept production demands considering priorities related to three performance criteria (economic, sustainability, and variability), given the current system load, which can impact delays and, consequently, financial losses. A Reinforcement Learning environment is introduced using state-of-the-art open-source software. The environment is designed as a single-agent problem, where the RL agent decides which demands to dispatch for production on the available machines at each time step. To guide the agent towards an optimal schedule, a reward function balances each criterion’s influence using a prioritisation factor. Additionally, a state-of-the-art RL algorithm is implemented. The RL approach is evaluated by comparing its solutions to a simulated dataset. The results show that the approach can generate more profitable and personalised, or more sustainable, schedules, depending on the adopted criterion. The agent’s performance is influenced by the prioritisation factor in the reward function. |
Palavras-chave: | Rede de fabricação auto-otimizada; Aprendizagem por reforço; Otimização de Política Proximal Self-optimizing manufacturing network; Reinforcement learning; Proximal Policy Optimization |
Área(s) do CNPq: | Metodologia e Técnicas da Computação |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade Federal do Maranhão |
Sigla da instituição: | UFMA |
Departamento: | DEPARTAMENTO DE INFORMÁTICA/CCET |
Programa: | PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET |
Citação: | FERREIRA, Frederic Menezes. Escalonamento de Produção em Manufatura em Rede: uma abordagem multicritério utilizando aprendizagem por reforço. 2024. 95 f. Dissertação( Programa de Pós-graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2024. |
Tipo de acesso: | Acesso Aberto |
URI: | https://tedebc.ufma.br/jspui/handle/tede/5666 |
Data de defesa: | 7-Ago-2024 |
Aparece nas coleções: | DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Frederic Menezes Ferreira.pdf | Dissertação de Mestrado | 19,18 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.