Reconhecimento de fonemas com compactação das frequências via centroide e redes stacked autoencoders.

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/5486

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	PEREIRA , Bianca Valéria Lopes	-
dc.creator.Lattes	http://lattes.cnpq.br/0100453417772333	por
dc.contributor.advisor1	ALMEIDA NETO, Areolino de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/8041675571955870	por
dc.contributor.referee1	ALMEIDA NETO, Areolino de	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/8041675571955870	por
dc.contributor.referee2	OLIVEIRA, Alexandre César Muniz de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/5225588855422632	por
dc.contributor.referee3	SAMPAIO NETO, Nelson Cruz	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/9756167788721062	por
dc.date.accessioned	2024-09-02T19:42:44Z	-
dc.date.issued	2024-06-06	-
dc.identifier.citation	PEREIRA , Bianca Valéria Lopes. Reconhecimento de fonemas com compactação das frequências via centroide e redes stacked autoencoders. 2024.115 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2024.	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/5486	-
dc.description.resumo	Oreconhecimento de fonemas é uma área da linguística e processamento de fala que envolve identificar e distinguir os sons distintivos que compõem uma língua. Reconhecer fonemas envolve a capacidade de discernir e categorizar os diferentes sons da fala, mesmo quando há variações de pronúncia, contexto ou entonação. Neste trabalho, é proposto um modelo de reconhecimento de fonemas utilizando uma rede stacked autoencoder, denominada CollabNet. A CollabNet introduz um método colaborativo para inserção de novas camadas escondidas, em contraste com o tradicional empilhamento de autoencoders. Na CollabNet, a adição de uma nova camada é feita de forma coordenada e gradual, permitindo ao projetista controlar sua influência no treinamento. Essa colaboração garante que o aprendizado da nova camada se integre de forma eficaz com as camadas anteriores, resultando em um treinamento mais alinhado e eficiente. Para a representação dos fonemas, foi realizada a compactação das frequências por meio de centroides, de maneira que se preserve as particularidades do som. Com o objetivo de criar uma representação geométrica dos áudios das bases de dados, foi calculada a transformada rápida de Fourier (FFT) para cada amostra de áudio, em seguida foram agrupadas as frequências e foi calculado o centroide de cada grupo. Posteriormente, a rede deep stacked autoencoder foi parametrizada e treinada para o reconhecimento de sílabas fonemas. Com essa representação dos áudios, foi possível manter sua caracterização particular de maneira que a CollabNet identificasse os diversos sons da língua portuguesa do Brasil, tendo assim uma acurácia de 75,96% e PER de 23,73%.	por
dc.description.abstract	Phoneme recognition is an area of linguistics and speech processing that involves identifying and distinguishing the distinctive sounds that make up a language. Recognizing phonemes involves the ability to discern and categorize the different sounds of speech, even when there are variations in pronunciation, context or intonation. In this work, a phoneme recognition model is proposed using a stacked autoencoder network, called CollabNet. CollabNet introduces a collaborative method for inserting new hidden layers, in contrast to the traditional stacking of autoencoders. In CollabNet, the addition of a new layer is done in a coordinated and gradual manner, allowing the designer to control its influence on the training. This collaboration ensures that the learning of the new layer is effectively integrated with the previous layers, resulting in more aligned and efficient training. To represent the phonemes, the frequencies were compacted using centroids so as to preserve the particularities of the sound. In order to create a geometric representation of the audios in the databases, the fast Fourier transform (FFT) was calculated for each audio sample, then the frequencies were grouped and the centroid of each group was calculated. Subsequently, the deep stacked autoencoder network was parameterized and trained to recognize phonetic syllables. With this representation of the audios, one could maintain their particular characterization so that CollabNet could identify the various sounds of the Brazilian Portuguese language, thus achieving an accuracy of 75.96% and a PER of 23.73%.	eng
dc.description.provenance	Submitted by Daniella Santos (daniella.santos@ufma.br) on 2024-09-02T19:42:44Z No. of bitstreams: 1 BIANCAVALÉRIALOPESPEREIRA.pdf: 13272167 bytes, checksum: b750351cfdf854d9c1cd1c4f95ddcc27 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2024-09-02T19:42:44Z (GMT). No. of bitstreams: 1 BIANCAVALÉRIALOPESPEREIRA.pdf: 13272167 bytes, checksum: b750351cfdf854d9c1cd1c4f95ddcc27 (MD5) Previous issue date: 2024-06-06	eng
dc.description.sponsorship	CAPES	por
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE INFORMÁTICA/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	reconhecimento de fonemas;	por
dc.subject	coeficientes de compactação;	por
dc.subject	stacked autoenco ders;	por
dc.subject	phoneme recognition;	eng
dc.subject	compaction coefficients;	eng
dc.subject	stacked autoencoders.	eng
dc.subject.cnpq	Ciência da Computação	por
dc.title	Reconhecimento de fonemas com compactação das frequências via centroide e redes stacked autoencoders.	por
dc.title.alternative	Phoneme recognition with frequency compression via centroid and stacked autoencoder networks.	eng
dc.type	Dissertação	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
BIANCAVALÉRIALOPESPEREIRA.pdf	Dissertação de Metrado	12,96 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações