Reconhecimento de voz utilizando seleção dinâmica de redes neurais

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/2131

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	ROCHA, Priscila Lima	-
dc.creator.Lattes	http://lattes.cnpq.br/0210192910474011	por
dc.contributor.advisor1	BARROS FILHO, Allan Kardec Duailibe	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0492330410079141	por
dc.contributor.advisor-co1	SILVA, Washington Luís Santos	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/2097264664222196	por
dc.contributor.referee1	PRINCIPE, José Carlos	-
dc.contributor.referee2	SOUZA, Francisco das Chagas de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/2405363087479257	por
dc.date.accessioned	2018-03-28T20:40:03Z	-
dc.date.issued	2018-02-23	-
dc.identifier.citation	ROCHA, Priscila Lima. Reconhecimento de voz utilizando seleção dinâmica de redes neurais. 2018. 110 f. Dissertação (Mestrado em Engenharia de Eletricidade) - Universidade Federal do Maranhão, São Luís, 2018.	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/2131	-
dc.description.resumo	Este trabalho propõe uma arquitetura hierarquizada composta por um conjunto redes neurais especialistas baseada no método de comitês com seleção dinâmica de classificadores para aplicação em sistemas de reconhecimento de sinais de voz. A tarefa de reconhecimento de padrões proposta neste trabalho envolve um grupo de 30 comandos na língua portuguesa brasileira. Estes comandos são codificados por uma matriz temporal bidimensional, resultante da aplicação da Transforma Cosseno Discreta (TCD) nos coeficientes mel-cepstrais. Para evitar o problema de separabilidade dos padrões, eles são modificados através de uma transformação não linear para um espaço de alta dimensionalidade através de um conjunto de Funções de Base Radial Gaussiana (FBRG). A classificação é feita por meio do método de seleção dinâmica de classificadores, na qual as configurações Perceptron de Múltiplas Camadas (Multilayer Perceptron - MLP) e Aprendizado por Quantização Vetorial (Learning Vector Quantization - LVQ) são analisadas para constituir os múltiplos classificadores especializados nas subdivisões realizadas no total de classes a serem reconhecidas. Os desempenhos destas configurações são avaliados durante as fases de treinamento, validação e teste do sistema de reconhecimento de voz. Então, dado um novo padrão de teste, este é aplicado ao conjunto de FBRG, onde cada função está parametrizada com as características de centroide e variância das classes. Logo, aquela a FRBG que apresentar o maior valor de imagem para a função indica a que classe este padrão está localizado, direcionando assim, para a rede neural especialista que fornecerá o resultado final de classificação baseada na acurácia local. Ao final, verificou-se o desempenho das configurações de redes neurais escolhidas para a composição dos múltiplos classificadores. O resultado da comparação entre as configurações MLP e LVQ para o sistema proposto mostrou que a taxa de acurácia global utilizando padrões de dimensões 4, 9 e 16 no espaço de características original para as redes LVQ ficou em 87.52%, 88.39% e 89.6% , respectivamente. Já as redes MLP obtiveram uma taxa de acurácia global de 91.44%, 93.15% e 94.9%, respectivamente.	por
dc.description.abstract	This work proposes a hierarchical architecture composed of a set of neural networks specialists based on the ensemble method with dynamic selection of classifiers for application in speech recognition systems. The task of pattern recognition proposed in this work involves a group of 30 commands in the Brazilian Portuguese language. These commands are coded by a two-dimensional temporal matrix, resulting from the application of the Discrete Cosine Transformation (DCT) in the mel-ceptral coefficients. To avoid the problem of separability of the patterns, they are modified through a nonlinear transformation to a high-dimensional space through a suitable set of Gaussian Radial Base Functions (GRBF). The classification is done through the dynamic classifier selection method, in which Multilayer Perceptron (MLP) and Vector Vector Quantization Learning (LVQ) configurations are analyzed to constitute the multiple classifiers specialized in the subdivisions made in the total of classes to be recognized. The performances these configurations are evaluated during the training, validation and testing phases of the voice recognition system. Then, given a new test pattern, this is applied to the GRBF set, where each function is parameterized with the centroid and variance characteristics of the classes. Therefore, the GRBF that present the highest image value for the function indicates to which class this pattern is located, thus directing, to the specialist neural network which will provide the final classification result based on the local accuracy. At the end, the performance of the neural network configurations chosen for the composition of the multiple classifiers was verified. The result of the comparison between MLP and LVQ configurations for the proposed system showed that the overall accuracy rate using patterns of dimensions 4, 9 and 16 in the original feature space for the LVQ networks was 87.52 %, 88.39 % and 89.6 %, respectively. The MLP networks obtained an overall accuracy rate of 91.44 %, 93.15 % and 94.9 %, respectively	eng
dc.description.provenance	Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2018-03-28T20:40:03Z No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2018-03-28T20:40:03Z (GMT). No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5) Previous issue date: 2018-02-23	eng
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	Redes Neurais	por
dc.subject	Reconhecimento Automático de Voz	por
dc.subject	Coeficientes Mel-Cepstrais	por
dc.subject	Modelos TCD	por
dc.subject	Perceptron de Múltiplas Camadas	por
dc.subject	Aprendizado por Quantização Vetorial	por
dc.subject	Função de Base Radial Gaussiana	por
dc.subject	Mistura de Especialistas	por
dc.subject	Automatic Speech Recognition	eng
dc.subject	Neural Network	eng
dc.subject	DCT Models	eng
dc.subject	Multilayer Perceptron	eng
dc.subject	Learning Vector Quantization	eng
dc.subject	Gaussian Radial Basis Function	eng
dc.subject	Mixture of Experts	eng
dc.subject.cnpq	Linguagem Formais e Automatos	por
dc.title	Reconhecimento de voz utilizando seleção dinâmica de redes neurais	por
dc.title.alternative	Speech recognition using dynamic selection of neural networks	por
dc.type	Dissertação	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
PriscilaRocha.pdf	Dissertação	1,79 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações