Compartilhamento |
|
Use este identificador para citar ou linkar para este item:
https://tedebc.ufma.br/jspui/handle/tede/tede/3355
Tipo do documento: | Dissertação |
Título: | Reconhecimento Automático de Fonemas via RNA Profunda |
Título(s) alternativo(s): | Automatic Phoneme Recognition via Deep ANN |
Autor: | CARVALHO, Mateus Barros Frota de |
Primeiro orientador: | ALMEIDA NETO, Areolino de |
Primeiro membro da banca: | ALMEIDA NETO, Areolino de |
Segundo membro da banca: | OLIVEIRA, Alexandre César Muniz de |
Terceiro membro da banca: | SILVA, Rogério Moreira Lima |
Resumo: | Este trabalho apresenta um modelo de reconhecimento de fonemas utilizando técnicas de detecção de objetos. Utilizou-se o detector Single Shot Detection em conjunto com a arquitetura de rede convolucional MobileNet. As bases de dados empregadas para treinar o modelo foram a TIMIT e a LibriSpeech, ambas são constituídas por áudios da língua inglesa. Para criar uma representação gráfica dos áudios das bases, para cada amostra de áudio, calculou-se o seu espectrograma na escala de Mel e para treinar o algoritmo de detecção de localização dos fonemas, anotou-se a posição temporal da ocorrência de cada fonema no seu respectivo espectrograma. Adicionalmente, foi necessário aumentar o conjunto de dados de treino, de forma a proporcionar melhora na generalização do modelo e para isso, juntaramse as duas bases de dados e aplicaram-se técnicas de aumento de dados para áudios. Os resultados deste trabalho ficaram próximos dos resultados obtidos em importantes trabalhos recentemente publicados. Esta pesquisa usou dois modelos com arquiteturas diferentes: a arquitetura MobileNet−Large, a qual obteve uma acurácia de 0,72 mAP@0.5IOU e uma taxa de erro por fonema de 19,47% e a arquitetura MobileNet − Small, a qual obteve uma acurácia de 0,63 mAP@0.5IOU e taxa de erro por fonema igual a 31,02%. |
Abstract: | This work presents a phoneme recognition model using object detection techniques. The Single Shot Detection detector was used in conjunction with the MobileNet convolutional network architecture. The databases used in model training were TIMIT and LibriSpeech, both have spoken audios in English. To generate a graphical representation using the audiobases, for each audio, its spectrogram was calculated on the Mel scale and to train the algorithm of phoneme location detection, the temporal position of the occurrence of each phoneme in its respective was noted for its spectrogram. Additionally, it was necessary to increase the training data set, in order to provide improvement in the generalization of the model and for that, the two databases were joined and data augmentation techniques were applied to audios. The results of this work were close to the results obtained in other state of the art works. This research used two models with different architectures: the MobileNet-Large architecture, which obtained an accuracy of 0.72 mAP@0.5IOU and an error rate per phoneme of 19.47 % and the MobileNet-Small architecture, which obtained an accuracy of 0.63 mAP@0.5IOU and error rate per phoneme equal to 31.02 %. |
Palavras-chave: | Detecção de objetos Reconhecimento de fala Reconhecimento de fonemas Object detection Voice recognition Phoneme recognition |
Área(s) do CNPq: | Ciência da Computação |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade Federal do Maranhão |
Sigla da instituição: | UFMA |
Departamento: | DEPARTAMENTO DE INFORMÁTICA/CCET |
Programa: | PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET |
Citação: | CARVALHO, Mateus Barros Frota de. Reconhecimento Automático de Fonemas via RNA Profunda. 2020. 68 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020. |
Tipo de acesso: | Acesso Aberto |
URI: | https://tedebc.ufma.br/jspui/handle/tede/tede/3355 |
Data de defesa: | 11-Dez-2020 |
Aparece nas coleções: | DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
MATEUS-CARVALHO.pdf | Dissertação de Mestrado | 2,2 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.