Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/2131
Registro completo de metadados
Campo DCValorIdioma
dc.creatorROCHA, Priscila Lima-
dc.creator.Latteshttp://lattes.cnpq.br/0210192910474011por
dc.contributor.advisor1BARROS FILHO, Allan Kardec Duailibe-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0492330410079141por
dc.contributor.advisor-co1SILVA, Washington Luís Santos-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/2097264664222196por
dc.contributor.referee1PRINCIPE, José Carlos-
dc.contributor.referee2SOUZA, Francisco das Chagas de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/2405363087479257por
dc.date.accessioned2018-03-28T20:40:03Z-
dc.date.issued2018-02-23-
dc.identifier.citationROCHA, Priscila Lima. Reconhecimento de voz utilizando seleção dinâmica de redes neurais. 2018. 110 f. Dissertação (Mestrado em Engenharia de Eletricidade) - Universidade Federal do Maranhão, São Luís, 2018.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/tede/2131-
dc.description.resumoEste trabalho propõe uma arquitetura hierarquizada composta por um conjunto redes neurais especialistas baseada no método de comitês com seleção dinâmica de classificadores para aplicação em sistemas de reconhecimento de sinais de voz. A tarefa de reconhecimento de padrões proposta neste trabalho envolve um grupo de 30 comandos na língua portuguesa brasileira. Estes comandos são codificados por uma matriz temporal bidimensional, resultante da aplicação da Transforma Cosseno Discreta (TCD) nos coeficientes mel-cepstrais. Para evitar o problema de separabilidade dos padrões, eles são modificados através de uma transformação não linear para um espaço de alta dimensionalidade através de um conjunto de Funções de Base Radial Gaussiana (FBRG). A classificação é feita por meio do método de seleção dinâmica de classificadores, na qual as configurações Perceptron de Múltiplas Camadas (Multilayer Perceptron - MLP) e Aprendizado por Quantização Vetorial (Learning Vector Quantization - LVQ) são analisadas para constituir os múltiplos classificadores especializados nas subdivisões realizadas no total de classes a serem reconhecidas. Os desempenhos destas configurações são avaliados durante as fases de treinamento, validação e teste do sistema de reconhecimento de voz. Então, dado um novo padrão de teste, este é aplicado ao conjunto de FBRG, onde cada função está parametrizada com as características de centroide e variância das classes. Logo, aquela a FRBG que apresentar o maior valor de imagem para a função indica a que classe este padrão está localizado, direcionando assim, para a rede neural especialista que fornecerá o resultado final de classificação baseada na acurácia local. Ao final, verificou-se o desempenho das configurações de redes neurais escolhidas para a composição dos múltiplos classificadores. O resultado da comparação entre as configurações MLP e LVQ para o sistema proposto mostrou que a taxa de acurácia global utilizando padrões de dimensões 4, 9 e 16 no espaço de características original para as redes LVQ ficou em 87.52%, 88.39% e 89.6% , respectivamente. Já as redes MLP obtiveram uma taxa de acurácia global de 91.44%, 93.15% e 94.9%, respectivamente.por
dc.description.abstractThis work proposes a hierarchical architecture composed of a set of neural networks specialists based on the ensemble method with dynamic selection of classifiers for application in speech recognition systems. The task of pattern recognition proposed in this work involves a group of 30 commands in the Brazilian Portuguese language. These commands are coded by a two-dimensional temporal matrix, resulting from the application of the Discrete Cosine Transformation (DCT) in the mel-ceptral coefficients. To avoid the problem of separability of the patterns, they are modified through a nonlinear transformation to a high-dimensional space through a suitable set of Gaussian Radial Base Functions (GRBF). The classification is done through the dynamic classifier selection method, in which Multilayer Perceptron (MLP) and Vector Vector Quantization Learning (LVQ) configurations are analyzed to constitute the multiple classifiers specialized in the subdivisions made in the total of classes to be recognized. The performances these configurations are evaluated during the training, validation and testing phases of the voice recognition system. Then, given a new test pattern, this is applied to the GRBF set, where each function is parameterized with the centroid and variance characteristics of the classes. Therefore, the GRBF that present the highest image value for the function indicates to which class this pattern is located, thus directing, to the specialist neural network which will provide the final classification result based on the local accuracy. At the end, the performance of the neural network configurations chosen for the composition of the multiple classifiers was verified. The result of the comparison between MLP and LVQ configurations for the proposed system showed that the overall accuracy rate using patterns of dimensions 4, 9 and 16 in the original feature space for the LVQ networks was 87.52 %, 88.39 % and 89.6 %, respectively. The MLP networks obtained an overall accuracy rate of 91.44 %, 93.15 % and 94.9 %, respectivelyeng
dc.description.provenanceSubmitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2018-03-28T20:40:03Z No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5)eng
dc.description.provenanceMade available in DSpace on 2018-03-28T20:40:03Z (GMT). No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5) Previous issue date: 2018-02-23eng
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCETpor
dc.rightsAcesso Abertopor
dc.subjectRedes Neuraispor
dc.subjectReconhecimento Automático de Vozpor
dc.subjectCoeficientes Mel-Cepstraispor
dc.subjectModelos TCDpor
dc.subjectPerceptron de Múltiplas Camadaspor
dc.subjectAprendizado por Quantização Vetorialpor
dc.subjectFunção de Base Radial Gaussianapor
dc.subjectMistura de Especialistaspor
dc.subjectAutomatic Speech Recognitioneng
dc.subjectNeural Networkeng
dc.subjectDCT Modelseng
dc.subjectMultilayer Perceptroneng
dc.subjectLearning Vector Quantizationeng
dc.subjectGaussian Radial Basis Functioneng
dc.subjectMixture of Expertseng
dc.subject.cnpqLinguagem Formais e Automatospor
dc.titleReconhecimento de voz utilizando seleção dinâmica de redes neuraispor
dc.title.alternativeSpeech recognition using dynamic selection of neural networkspor
dc.typeDissertaçãopor
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
PriscilaRocha.pdfDissertação1,79 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.