Compartilhamento |
|
Use este identificador para citar ou linkar para este item:
https://tedebc.ufma.br/jspui/handle/tede/tede/2131
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | ROCHA, Priscila Lima | - |
dc.creator.Lattes | http://lattes.cnpq.br/0210192910474011 | por |
dc.contributor.advisor1 | BARROS FILHO, Allan Kardec Duailibe | - |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0492330410079141 | por |
dc.contributor.advisor-co1 | SILVA, Washington Luís Santos | - |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/2097264664222196 | por |
dc.contributor.referee1 | PRINCIPE, José Carlos | - |
dc.contributor.referee2 | SOUZA, Francisco das Chagas de | - |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/2405363087479257 | por |
dc.date.accessioned | 2018-03-28T20:40:03Z | - |
dc.date.issued | 2018-02-23 | - |
dc.identifier.citation | ROCHA, Priscila Lima. Reconhecimento de voz utilizando seleção dinâmica de redes neurais. 2018. 110 f. Dissertação (Mestrado em Engenharia de Eletricidade) - Universidade Federal do Maranhão, São Luís, 2018. | por |
dc.identifier.uri | https://tedebc.ufma.br/jspui/handle/tede/tede/2131 | - |
dc.description.resumo | Este trabalho propõe uma arquitetura hierarquizada composta por um conjunto redes neurais especialistas baseada no método de comitês com seleção dinâmica de classificadores para aplicação em sistemas de reconhecimento de sinais de voz. A tarefa de reconhecimento de padrões proposta neste trabalho envolve um grupo de 30 comandos na língua portuguesa brasileira. Estes comandos são codificados por uma matriz temporal bidimensional, resultante da aplicação da Transforma Cosseno Discreta (TCD) nos coeficientes mel-cepstrais. Para evitar o problema de separabilidade dos padrões, eles são modificados através de uma transformação não linear para um espaço de alta dimensionalidade através de um conjunto de Funções de Base Radial Gaussiana (FBRG). A classificação é feita por meio do método de seleção dinâmica de classificadores, na qual as configurações Perceptron de Múltiplas Camadas (Multilayer Perceptron - MLP) e Aprendizado por Quantização Vetorial (Learning Vector Quantization - LVQ) são analisadas para constituir os múltiplos classificadores especializados nas subdivisões realizadas no total de classes a serem reconhecidas. Os desempenhos destas configurações são avaliados durante as fases de treinamento, validação e teste do sistema de reconhecimento de voz. Então, dado um novo padrão de teste, este é aplicado ao conjunto de FBRG, onde cada função está parametrizada com as características de centroide e variância das classes. Logo, aquela a FRBG que apresentar o maior valor de imagem para a função indica a que classe este padrão está localizado, direcionando assim, para a rede neural especialista que fornecerá o resultado final de classificação baseada na acurácia local. Ao final, verificou-se o desempenho das configurações de redes neurais escolhidas para a composição dos múltiplos classificadores. O resultado da comparação entre as configurações MLP e LVQ para o sistema proposto mostrou que a taxa de acurácia global utilizando padrões de dimensões 4, 9 e 16 no espaço de características original para as redes LVQ ficou em 87.52%, 88.39% e 89.6% , respectivamente. Já as redes MLP obtiveram uma taxa de acurácia global de 91.44%, 93.15% e 94.9%, respectivamente. | por |
dc.description.abstract | This work proposes a hierarchical architecture composed of a set of neural networks specialists based on the ensemble method with dynamic selection of classifiers for application in speech recognition systems. The task of pattern recognition proposed in this work involves a group of 30 commands in the Brazilian Portuguese language. These commands are coded by a two-dimensional temporal matrix, resulting from the application of the Discrete Cosine Transformation (DCT) in the mel-ceptral coefficients. To avoid the problem of separability of the patterns, they are modified through a nonlinear transformation to a high-dimensional space through a suitable set of Gaussian Radial Base Functions (GRBF). The classification is done through the dynamic classifier selection method, in which Multilayer Perceptron (MLP) and Vector Vector Quantization Learning (LVQ) configurations are analyzed to constitute the multiple classifiers specialized in the subdivisions made in the total of classes to be recognized. The performances these configurations are evaluated during the training, validation and testing phases of the voice recognition system. Then, given a new test pattern, this is applied to the GRBF set, where each function is parameterized with the centroid and variance characteristics of the classes. Therefore, the GRBF that present the highest image value for the function indicates to which class this pattern is located, thus directing, to the specialist neural network which will provide the final classification result based on the local accuracy. At the end, the performance of the neural network configurations chosen for the composition of the multiple classifiers was verified. The result of the comparison between MLP and LVQ configurations for the proposed system showed that the overall accuracy rate using patterns of dimensions 4, 9 and 16 in the original feature space for the LVQ networks was 87.52 %, 88.39 % and 89.6 %, respectively. The MLP networks obtained an overall accuracy rate of 91.44 %, 93.15 % and 94.9 %, respectively | eng |
dc.description.provenance | Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2018-03-28T20:40:03Z No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5) | eng |
dc.description.provenance | Made available in DSpace on 2018-03-28T20:40:03Z (GMT). No. of bitstreams: 1 PriscilaRocha.pdf: 1829500 bytes, checksum: 684598b89c594f94a8037d441f2cb8c6 (MD5) Previous issue date: 2018-02-23 | eng |
dc.format | application/pdf | * |
dc.language | por | por |
dc.publisher | Universidade Federal do Maranhão | por |
dc.publisher.department | DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET | por |
dc.publisher.country | Brasil | por |
dc.publisher.initials | UFMA | por |
dc.publisher.program | PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET | por |
dc.rights | Acesso Aberto | por |
dc.subject | Redes Neurais | por |
dc.subject | Reconhecimento Automático de Voz | por |
dc.subject | Coeficientes Mel-Cepstrais | por |
dc.subject | Modelos TCD | por |
dc.subject | Perceptron de Múltiplas Camadas | por |
dc.subject | Aprendizado por Quantização Vetorial | por |
dc.subject | Função de Base Radial Gaussiana | por |
dc.subject | Mistura de Especialistas | por |
dc.subject | Automatic Speech Recognition | eng |
dc.subject | Neural Network | eng |
dc.subject | DCT Models | eng |
dc.subject | Multilayer Perceptron | eng |
dc.subject | Learning Vector Quantization | eng |
dc.subject | Gaussian Radial Basis Function | eng |
dc.subject | Mixture of Experts | eng |
dc.subject.cnpq | Linguagem Formais e Automatos | por |
dc.title | Reconhecimento de voz utilizando seleção dinâmica de redes neurais | por |
dc.title.alternative | Speech recognition using dynamic selection of neural networks | por |
dc.type | Dissertação | por |
Aparece nas coleções: | DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
PriscilaRocha.pdf | Dissertação | 1,79 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.