Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/3355
Registro completo de metadados
Campo DCValorIdioma
dc.creatorCARVALHO, Mateus Barros Frota de-
dc.creator.Latteshttp://lattes.cnpq.br/2756606178387194por
dc.contributor.advisor1ALMEIDA NETO, Areolino de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8041675571955870por
dc.contributor.referee1ALMEIDA NETO, Areolino de-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/8041675571955870por
dc.contributor.referee2OLIVEIRA, Alexandre César Muniz de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5225588855422632por
dc.contributor.referee3SILVA, Rogério Moreira Lima-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/0490351544174740por
dc.date.accessioned2021-09-23T14:48:10Z-
dc.date.issued2020-12-11-
dc.identifier.citationCARVALHO, Mateus Barros Frota de. Reconhecimento Automático de Fonemas via RNA Profunda. 2020. 68 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/tede/3355-
dc.description.resumoEste trabalho apresenta um modelo de reconhecimento de fonemas utilizando técnicas de detecção de objetos. Utilizou-se o detector Single Shot Detection em conjunto com a arquitetura de rede convolucional MobileNet. As bases de dados empregadas para treinar o modelo foram a TIMIT e a LibriSpeech, ambas são constituídas por áudios da língua inglesa. Para criar uma representação gráfica dos áudios das bases, para cada amostra de áudio, calculou-se o seu espectrograma na escala de Mel e para treinar o algoritmo de detecção de localização dos fonemas, anotou-se a posição temporal da ocorrência de cada fonema no seu respectivo espectrograma. Adicionalmente, foi necessário aumentar o conjunto de dados de treino, de forma a proporcionar melhora na generalização do modelo e para isso, juntaramse as duas bases de dados e aplicaram-se técnicas de aumento de dados para áudios. Os resultados deste trabalho ficaram próximos dos resultados obtidos em importantes trabalhos recentemente publicados. Esta pesquisa usou dois modelos com arquiteturas diferentes: a arquitetura MobileNet−Large, a qual obteve uma acurácia de 0,72 mAP@0.5IOU e uma taxa de erro por fonema de 19,47% e a arquitetura MobileNet − Small, a qual obteve uma acurácia de 0,63 mAP@0.5IOU e taxa de erro por fonema igual a 31,02%.por
dc.description.abstractThis work presents a phoneme recognition model using object detection techniques. The Single Shot Detection detector was used in conjunction with the MobileNet convolutional network architecture. The databases used in model training were TIMIT and LibriSpeech, both have spoken audios in English. To generate a graphical representation using the audiobases, for each audio, its spectrogram was calculated on the Mel scale and to train the algorithm of phoneme location detection, the temporal position of the occurrence of each phoneme in its respective was noted for its spectrogram. Additionally, it was necessary to increase the training data set, in order to provide improvement in the generalization of the model and for that, the two databases were joined and data augmentation techniques were applied to audios. The results of this work were close to the results obtained in other state of the art works. This research used two models with different architectures: the MobileNet-Large architecture, which obtained an accuracy of 0.72 mAP@0.5IOU and an error rate per phoneme of 19.47 % and the MobileNet-Small architecture, which obtained an accuracy of 0.63 mAP@0.5IOU and error rate per phoneme equal to 31.02 %.eng
dc.description.provenanceSubmitted by Sheila MONTEIRO (sheila.monteiro@ufma.br) on 2021-09-23T14:48:10Z No. of bitstreams: 1 MATEUS-CARVALHO.pdf: 2251513 bytes, checksum: 9136b046c2cd96099f89eac7609bf9b1 (MD5)eng
dc.description.provenanceMade available in DSpace on 2021-09-23T14:48:10Z (GMT). No. of bitstreams: 1 MATEUS-CARVALHO.pdf: 2251513 bytes, checksum: 9136b046c2cd96099f89eac7609bf9b1 (MD5) Previous issue date: 2020-12-11eng
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE INFORMÁTICA/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETpor
dc.rightsAcesso Abertopor
dc.subjectDetecção de objetospor
dc.subjectReconhecimento de falapor
dc.subjectReconhecimento de fonemaspor
dc.subjectObject detectioneng
dc.subjectVoice recognitioneng
dc.subjectPhoneme recognitioneng
dc.subject.cnpqCiência da Computaçãopor
dc.titleReconhecimento Automático de Fonemas via RNA Profundapor
dc.title.alternativeAutomatic Phoneme Recognition via Deep ANNeng
dc.typeDissertaçãopor
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MATEUS-CARVALHO.pdfDissertação de Mestrado2,2 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.