???item.export.label??? ???item.export.type.endnote??? ???item.export.type.bibtex???

Please use this identifier to cite or link to this item: https://tedebc.ufma.br/jspui/handle/tede/tede/2131
Tipo do documento: Dissertação
Título: Reconhecimento de voz utilizando seleção dinâmica de redes neurais
Título(s) alternativo(s): Speech recognition using dynamic selection of neural networks
Autor: ROCHA, Priscila Lima 
Primeiro orientador: BARROS FILHO, Allan Kardec Duailibe
Primeiro coorientador: SILVA, Washington Luís Santos
Primeiro membro da banca: PRINCIPE, José Carlos
Segundo membro da banca: SOUZA, Francisco das Chagas de
Resumo: Este trabalho propõe uma arquitetura hierarquizada composta por um conjunto redes neurais especialistas baseada no método de comitês com seleção dinâmica de classificadores para aplicação em sistemas de reconhecimento de sinais de voz. A tarefa de reconhecimento de padrões proposta neste trabalho envolve um grupo de 30 comandos na língua portuguesa brasileira. Estes comandos são codificados por uma matriz temporal bidimensional, resultante da aplicação da Transforma Cosseno Discreta (TCD) nos coeficientes mel-cepstrais. Para evitar o problema de separabilidade dos padrões, eles são modificados através de uma transformação não linear para um espaço de alta dimensionalidade através de um conjunto de Funções de Base Radial Gaussiana (FBRG). A classificação é feita por meio do método de seleção dinâmica de classificadores, na qual as configurações Perceptron de Múltiplas Camadas (Multilayer Perceptron - MLP) e Aprendizado por Quantização Vetorial (Learning Vector Quantization - LVQ) são analisadas para constituir os múltiplos classificadores especializados nas subdivisões realizadas no total de classes a serem reconhecidas. Os desempenhos destas configurações são avaliados durante as fases de treinamento, validação e teste do sistema de reconhecimento de voz. Então, dado um novo padrão de teste, este é aplicado ao conjunto de FBRG, onde cada função está parametrizada com as características de centroide e variância das classes. Logo, aquela a FRBG que apresentar o maior valor de imagem para a função indica a que classe este padrão está localizado, direcionando assim, para a rede neural especialista que fornecerá o resultado final de classificação baseada na acurácia local. Ao final, verificou-se o desempenho das configurações de redes neurais escolhidas para a composição dos múltiplos classificadores. O resultado da comparação entre as configurações MLP e LVQ para o sistema proposto mostrou que a taxa de acurácia global utilizando padrões de dimensões 4, 9 e 16 no espaço de características original para as redes LVQ ficou em 87.52%, 88.39% e 89.6% , respectivamente. Já as redes MLP obtiveram uma taxa de acurácia global de 91.44%, 93.15% e 94.9%, respectivamente.
Abstract: This work proposes a hierarchical architecture composed of a set of neural networks specialists based on the ensemble method with dynamic selection of classifiers for application in speech recognition systems. The task of pattern recognition proposed in this work involves a group of 30 commands in the Brazilian Portuguese language. These commands are coded by a two-dimensional temporal matrix, resulting from the application of the Discrete Cosine Transformation (DCT) in the mel-ceptral coefficients. To avoid the problem of separability of the patterns, they are modified through a nonlinear transformation to a high-dimensional space through a suitable set of Gaussian Radial Base Functions (GRBF). The classification is done through the dynamic classifier selection method, in which Multilayer Perceptron (MLP) and Vector Vector Quantization Learning (LVQ) configurations are analyzed to constitute the multiple classifiers specialized in the subdivisions made in the total of classes to be recognized. The performances these configurations are evaluated during the training, validation and testing phases of the voice recognition system. Then, given a new test pattern, this is applied to the GRBF set, where each function is parameterized with the centroid and variance characteristics of the classes. Therefore, the GRBF that present the highest image value for the function indicates to which class this pattern is located, thus directing, to the specialist neural network which will provide the final classification result based on the local accuracy. At the end, the performance of the neural network configurations chosen for the composition of the multiple classifiers was verified. The result of the comparison between MLP and LVQ configurations for the proposed system showed that the overall accuracy rate using patterns of dimensions 4, 9 and 16 in the original feature space for the LVQ networks was 87.52 %, 88.39 % and 89.6 %, respectively. The MLP networks obtained an overall accuracy rate of 91.44 %, 93.15 % and 94.9 %, respectively
Palavras-chave: Redes Neurais
Reconhecimento Automático de Voz
Coeficientes Mel-Cepstrais
Modelos TCD
Perceptron de Múltiplas Camadas
Aprendizado por Quantização Vetorial
Função de Base Radial Gaussiana
Mistura de Especialistas
Automatic Speech Recognition
Neural Network
DCT Models
Multilayer Perceptron
Learning Vector Quantization
Gaussian Radial Basis Function
Mixture of Experts
Área(s) do CNPq: Linguagem Formais e Automatos
Idioma: por
País: Brasil
Instituição: Universidade Federal do Maranhão
Sigla da instituição: UFMA
Departamento: DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Programa: PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET
Citação: ROCHA, Priscila Lima. Reconhecimento de voz utilizando seleção dinâmica de redes neurais. 2018. 110 f. Dissertação (Mestrado em Engenharia de Eletricidade) - Universidade Federal do Maranhão, São Luís, 2018.
Tipo de acesso: Acesso Aberto
URI: https://tedebc.ufma.br/jspui/handle/tede/tede/2131
Data de defesa: 23-Feb-2018
Appears in Collections:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Files in This Item:
File Description SizeFormat 
PriscilaRocha.pdfDissertação1,79 MBAdobe PDFDownload/Open Preview


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.