Reconhecimento Automático de Fonemas via RNA Profunda

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/3355

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	CARVALHO, Mateus Barros Frota de	-
dc.creator.Lattes	http://lattes.cnpq.br/2756606178387194	por
dc.contributor.advisor1	ALMEIDA NETO, Areolino de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8041675571955870	por
dc.contributor.referee1	ALMEIDA NETO, Areolino de	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8041675571955870	por
dc.contributor.referee2	OLIVEIRA, Alexandre César Muniz de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5225588855422632	por
dc.contributor.referee3	SILVA, Rogério Moreira Lima	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/0490351544174740	por
dc.date.accessioned	2021-09-23T14:48:10Z	-
dc.date.issued	2020-12-11	-
dc.identifier.citation	CARVALHO, Mateus Barros Frota de. Reconhecimento Automático de Fonemas via RNA Profunda. 2020. 68 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/3355	-
dc.description.resumo	Este trabalho apresenta um modelo de reconhecimento de fonemas utilizando técnicas de detecção de objetos. Utilizou-se o detector Single Shot Detection em conjunto com a arquitetura de rede convolucional MobileNet. As bases de dados empregadas para treinar o modelo foram a TIMIT e a LibriSpeech, ambas são constituídas por áudios da língua inglesa. Para criar uma representação gráfica dos áudios das bases, para cada amostra de áudio, calculou-se o seu espectrograma na escala de Mel e para treinar o algoritmo de detecção de localização dos fonemas, anotou-se a posição temporal da ocorrência de cada fonema no seu respectivo espectrograma. Adicionalmente, foi necessário aumentar o conjunto de dados de treino, de forma a proporcionar melhora na generalização do modelo e para isso, juntaramse as duas bases de dados e aplicaram-se técnicas de aumento de dados para áudios. Os resultados deste trabalho ficaram próximos dos resultados obtidos em importantes trabalhos recentemente publicados. Esta pesquisa usou dois modelos com arquiteturas diferentes: a arquitetura MobileNet−Large, a qual obteve uma acurácia de 0,72 mAP@0.5IOU e uma taxa de erro por fonema de 19,47% e a arquitetura MobileNet − Small, a qual obteve uma acurácia de 0,63 mAP@0.5IOU e taxa de erro por fonema igual a 31,02%.	por
dc.description.abstract	This work presents a phoneme recognition model using object detection techniques. The Single Shot Detection detector was used in conjunction with the MobileNet convolutional network architecture. The databases used in model training were TIMIT and LibriSpeech, both have spoken audios in English. To generate a graphical representation using the audiobases, for each audio, its spectrogram was calculated on the Mel scale and to train the algorithm of phoneme location detection, the temporal position of the occurrence of each phoneme in its respective was noted for its spectrogram. Additionally, it was necessary to increase the training data set, in order to provide improvement in the generalization of the model and for that, the two databases were joined and data augmentation techniques were applied to audios. The results of this work were close to the results obtained in other state of the art works. This research used two models with different architectures: the MobileNet-Large architecture, which obtained an accuracy of 0.72 mAP@0.5IOU and an error rate per phoneme of 19.47 % and the MobileNet-Small architecture, which obtained an accuracy of 0.63 mAP@0.5IOU and error rate per phoneme equal to 31.02 %.	eng
dc.description.provenance	Submitted by Sheila MONTEIRO (sheila.monteiro@ufma.br) on 2021-09-23T14:48:10Z No. of bitstreams: 1 MATEUS-CARVALHO.pdf: 2251513 bytes, checksum: 9136b046c2cd96099f89eac7609bf9b1 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2021-09-23T14:48:10Z (GMT). No. of bitstreams: 1 MATEUS-CARVALHO.pdf: 2251513 bytes, checksum: 9136b046c2cd96099f89eac7609bf9b1 (MD5) Previous issue date: 2020-12-11	eng
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE INFORMÁTICA/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	Detecção de objetos	por
dc.subject	Reconhecimento de fala	por
dc.subject	Reconhecimento de fonemas	por
dc.subject	Object detection	eng
dc.subject	Voice recognition	eng
dc.subject	Phoneme recognition	eng
dc.subject.cnpq	Ciência da Computação	por
dc.title	Reconhecimento Automático de Fonemas via RNA Profunda	por
dc.title.alternative	Automatic Phoneme Recognition via Deep ANN	eng
dc.type	Dissertação	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
MATEUS-CARVALHO.pdf	Dissertação de Mestrado	2,2 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações