Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/5486
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPEREIRA , Bianca Valéria Lopes-
dc.creator.Latteshttp://lattes.cnpq.br/0100453417772333por
dc.contributor.advisor1ALMEIDA NETO, Areolino de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8041675571955870por
dc.contributor.referee1ALMEIDA NETO, Areolino de-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/8041675571955870por
dc.contributor.referee2OLIVEIRA, Alexandre César Muniz de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5225588855422632por
dc.contributor.referee3SAMPAIO NETO, Nelson Cruz-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9756167788721062por
dc.date.accessioned2024-09-02T19:42:44Z-
dc.date.issued2024-06-06-
dc.identifier.citationPEREIRA , Bianca Valéria Lopes. Reconhecimento de fonemas com compactação das frequências via centroide e redes stacked autoencoders. 2024.115 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2024.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/tede/5486-
dc.description.resumoOreconhecimento de fonemas é uma área da linguística e processamento de fala que envolve identificar e distinguir os sons distintivos que compõem uma língua. Reconhecer fonemas envolve a capacidade de discernir e categorizar os diferentes sons da fala, mesmo quando há variações de pronúncia, contexto ou entonação. Neste trabalho, é proposto um modelo de reconhecimento de fonemas utilizando uma rede stacked autoencoder, denominada CollabNet. A CollabNet introduz um método colaborativo para inserção de novas camadas escondidas, em contraste com o tradicional empilhamento de autoencoders. Na CollabNet, a adição de uma nova camada é feita de forma coordenada e gradual, permitindo ao projetista controlar sua influência no treinamento. Essa colaboração garante que o aprendizado da nova camada se integre de forma eficaz com as camadas anteriores, resultando em um treinamento mais alinhado e eficiente. Para a representação dos fonemas, foi realizada a compactação das frequências por meio de centroides, de maneira que se preserve as particularidades do som. Com o objetivo de criar uma representação geométrica dos áudios das bases de dados, foi calculada a transformada rápida de Fourier (FFT) para cada amostra de áudio, em seguida foram agrupadas as frequências e foi calculado o centroide de cada grupo. Posteriormente, a rede deep stacked autoencoder foi parametrizada e treinada para o reconhecimento de sílabas fonemas. Com essa representação dos áudios, foi possível manter sua caracterização particular de maneira que a CollabNet identificasse os diversos sons da língua portuguesa do Brasil, tendo assim uma acurácia de 75,96% e PER de 23,73%.por
dc.description.abstractPhoneme recognition is an area of linguistics and speech processing that involves identifying and distinguishing the distinctive sounds that make up a language. Recognizing phonemes involves the ability to discern and categorize the different sounds of speech, even when there are variations in pronunciation, context or intonation. In this work, a phoneme recognition model is proposed using a stacked autoencoder network, called CollabNet. CollabNet introduces a collaborative method for inserting new hidden layers, in contrast to the traditional stacking of autoencoders. In CollabNet, the addition of a new layer is done in a coordinated and gradual manner, allowing the designer to control its influence on the training. This collaboration ensures that the learning of the new layer is effectively integrated with the previous layers, resulting in more aligned and efficient training. To represent the phonemes, the frequencies were compacted using centroids so as to preserve the particularities of the sound. In order to create a geometric representation of the audios in the databases, the fast Fourier transform (FFT) was calculated for each audio sample, then the frequencies were grouped and the centroid of each group was calculated. Subsequently, the deep stacked autoencoder network was parameterized and trained to recognize phonetic syllables. With this representation of the audios, one could maintain their particular characterization so that CollabNet could identify the various sounds of the Brazilian Portuguese language, thus achieving an accuracy of 75.96% and a PER of 23.73%.eng
dc.description.provenanceSubmitted by Daniella Santos (daniella.santos@ufma.br) on 2024-09-02T19:42:44Z No. of bitstreams: 1 BIANCAVALÉRIALOPESPEREIRA.pdf: 13272167 bytes, checksum: b750351cfdf854d9c1cd1c4f95ddcc27 (MD5)eng
dc.description.provenanceMade available in DSpace on 2024-09-02T19:42:44Z (GMT). No. of bitstreams: 1 BIANCAVALÉRIALOPESPEREIRA.pdf: 13272167 bytes, checksum: b750351cfdf854d9c1cd1c4f95ddcc27 (MD5) Previous issue date: 2024-06-06eng
dc.description.sponsorshipCAPESpor
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE INFORMÁTICA/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETpor
dc.rightsAcesso Abertopor
dc.subjectreconhecimento de fonemas;por
dc.subjectcoeficientes de compactação;por
dc.subjectstacked autoenco ders;por
dc.subjectphoneme recognition;eng
dc.subjectcompaction coefficients;eng
dc.subjectstacked autoencoders.eng
dc.subject.cnpqCiência da Computaçãopor
dc.titleReconhecimento de fonemas com compactação das frequências via centroide e redes stacked autoencoders.por
dc.title.alternativePhoneme recognition with frequency compression via centroid and stacked autoencoder networks.eng
dc.typeDissertaçãopor
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
BIANCAVALÉRIALOPESPEREIRA.pdfDissertação de Metrado12,96 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.