@MASTERSTHESIS{ 2018:387292515, title = {Reconhecimento de voz utilizando seleção dinâmica de redes neurais}, year = {2018}, url = "https://tedebc.ufma.br/jspui/handle/tede/tede/2131", abstract = "Este trabalho propõe uma arquitetura hierarquizada composta por um conjunto redes neurais especialistas baseada no método de comitês com seleção dinâmica de classificadores para aplicação em sistemas de reconhecimento de sinais de voz. A tarefa de reconhecimento de padrões proposta neste trabalho envolve um grupo de 30 comandos na língua portuguesa brasileira. Estes comandos são codificados por uma matriz temporal bidimensional, resultante da aplicação da Transforma Cosseno Discreta (TCD) nos coeficientes mel-cepstrais. Para evitar o problema de separabilidade dos padrões, eles são modificados através de uma transformação não linear para um espaço de alta dimensionalidade através de um conjunto de Funções de Base Radial Gaussiana (FBRG). A classificação é feita por meio do método de seleção dinâmica de classificadores, na qual as configurações Perceptron de Múltiplas Camadas (Multilayer Perceptron - MLP) e Aprendizado por Quantização Vetorial (Learning Vector Quantization - LVQ) são analisadas para constituir os múltiplos classificadores especializados nas subdivisões realizadas no total de classes a serem reconhecidas. Os desempenhos destas configurações são avaliados durante as fases de treinamento, validação e teste do sistema de reconhecimento de voz. Então, dado um novo padrão de teste, este é aplicado ao conjunto de FBRG, onde cada função está parametrizada com as características de centroide e variância das classes. Logo, aquela a FRBG que apresentar o maior valor de imagem para a função indica a que classe este padrão está localizado, direcionando assim, para a rede neural especialista que fornecerá o resultado final de classificação baseada na acurácia local. Ao final, verificou-se o desempenho das configurações de redes neurais escolhidas para a composição dos múltiplos classificadores. O resultado da comparação entre as configurações MLP e LVQ para o sistema proposto mostrou que a taxa de acurácia global utilizando padrões de dimensões 4, 9 e 16 no espaço de características original para as redes LVQ ficou em 87.52%, 88.39% e 89.6% , respectivamente. Já as redes MLP obtiveram uma taxa de acurácia global de 91.44%, 93.15% e 94.9%, respectivamente.", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET}, note = {DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET} }