Algoritmos genético para imputação múltipla de dados na classificação multirrótulo

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/5255

Tipo do documento:	Tese
Título:	Algoritmos genético para imputação múltipla de dados na classificação multirrótulo
Título(s) alternativo(s):	Genetic algorithms for multiple imputation of data in multi-label classification
Autor:	JACOB JUNIOR, Antonio Fernando Lavareda
Primeiro orientador:	SANTANA, Ewaldo Eder Carvalho
Primeiro coorientador:	LOBATO, Fábio Manoel França
Primeiro membro da banca:	SANTANA, Ewaldo Eder Carvalho
Segundo membro da banca:	LOBATO, Fábio Manoel França
Terceiro membro da banca:	BARROS FILHO, Allan Kardec Duailibe
Quarto membro da banca:	SILVA, Francisco Jose Da Silva e
Quinto membro da banca:	CORTES, Omar Andres Carmona
Resumo:	Dados ausentes são um problema prevalente que requer atenção, uma vez que a maioria das técnicas de análise de dados não consegue lidar com isso. Esse problema é particularmente crítico em Classificação Multi-rótulo (MLC), onde poucos estudos têm investigado dados ausentes nesse domínio de aplicação. MLC difere da Classificação de Monorrótulo (SLC) ao permitir que uma instância seja associada a várias classes. A classificação de filmes é um exemplo didático, já que um filme pode ser classificado como “drama” e “biografia” simultaneamente. Um dos métodos mais comuns de tratamento de dados ausentes é por meio da imputação de dados, a qual busca valores plausíveis para preencher os ausentes. Nesse cenário, essa tese apresenta um novo método de imputação baseado em um algoritmo genético multiobjetivo para otimizar múltiplas imputações de dados, chamado Imputação Múltipla de Dados na Classificação Multirrótulo por meio de um Algoritmo Genético, ou simplesmente EvoImp. Aplicamos o método proposto em aprendizado multirrótulo e avaliamos seu desempenho usando seis bancos de dados sintéticos, considerando vários cenários de distribuição de valores ausentes. O método foi comparado com outras estratégias de imputação do estado-da-arte, como K-Means Imputation (KMI) e Weighted K-Nearest Neighbors Imputation (WKNNI). Os resultados comprovaram que o método proposto superou o baseline em todos os cenários, alcançando as melhores medidas de avaliação considerando: Exact Match, Acurácia e Hamming Loss. Os resultados superiores foram consistentes em diferentes domínios e tamanhos de conjuntos de dados, demonstrando a robustez do EvoImp. Assim, o EvoImp representa uma solução viável para o tratamento de dados ausentes em aprendizado multirrótulo.
Abstract:	Missing data is a prevalent problem that requires attention, as most data analysis techniques are unable to handle it. This is particularly critical in Multi-Label Classification (MLC), where only a few studies have investigated missing data in this application domain. MLC differs from Single-Label Classification (SLC) by allowing an instance to be associated with multiple classes. Movie classification is a didactic example since it can be “drama” and “bibliography” simultaneously. One of the most usual missing data treatment methods is data imputation, which seeks plausible values to fill in the missing ones. In this scenario, we propose a novel imputation method based on a multi-objective genetic algorithm for optimizing multiple data imputations called Multiple Imputation of Multi- label Classification data with a genetic algorithm, or simply EvoImp. We applied the proposed method in multi-label learning and evaluated its performance using six synthetic databases, considering various missing values distribution scenarios. The method was compared with other state-of-the-art imputation strategies, such as K-Means Imputation (KMI) and weighted K-Nearest Neighbors Imputation (WKNNI). The results proved that the proposed method outperformed the baseline in all the scenarios by achieving the best evaluation measures considering the Exact Match, Accuracy, and Hamming Loss. The superior results were constant in different dataset domains and sizes, demonstrating the EvoImp robustness. Thus, EvoImp represents a feasible solution to missing data treatment for multi-label learning.
Palavras-chave:	valores ausentes; classificação multirrótulo; algoritmos genéticos. missing values; multi-label classification genetic algorithms.
Área(s) do CNPq:	Ciências Exatas e da Terra
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET
Citação:	JACOB JUNIOR, Antonio Fernando Lavareda. Algoritmos genético para imputação múltipla de dados na classificação multirrótulo. 2024. 97 f. Tese (Programa de Pós-Graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2024.
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/5255
Data de defesa:	23-Fev-2024
Aparece nas coleções:	TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
AntonioFernandoLavaredaJacobJunior.pdf	Tese de Doutorado	2,26 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações