Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/tede/2469
Tipo do documento: Dissertação
Título: Remoção de ruídos aditivos e segmentação de palavras-chave em áudios
Título(s) alternativo(s): Additive Noise Removal and Keywords Targeting in Audio
Autor: PESSOA, Maurício Cesar Pinto 
Primeiro orientador: BOCHARTT, Tiago Bonini
Primeiro membro da banca: BOCHARTT, Tiago Bonini
Segundo membro da banca: BRAZ JUNIOR, Geraldo
Terceiro membro da banca: BRANDÃO, André Luiz
Resumo: The presence of additive noise is one of the main problems in digital audio recognition systems as they make it difficult to segment the audio relevant portions and may also reduce classifier performance. The main objective of this work is to develop a method of noise removal and segmentation in digital audio files generated by the direct observation method. This method is where an observer records, in audio, all the actions taken by a given specimen, coded in bite categories. This method preprocesses the audio files in order to normalize them and reduce their dimensionality, after which the SEGAN neural network is used to remove the noise. The audio segmentation step begins with a pre-processing that attenuates the signal valleys and emphasizes the peaks, similar to signal normalization. The pre-processing is followed by the application of the valley silencing function, based on the standard deviation and standardized score. Segmentation is performed by using a mapping function that finds the start and end times of each segment, using silence detection and overlapping sliding windows. The noise removal tests were performed through a double-blind study, using questionnaires with an unipolar 5-point Likert scale and an audio dataset compiled by the author, in order to subjectively measure the method’s quality. Quality scores reached an average of 3.56 out of 5 on noise removal and an average of 4.14 out of 5 on overall audio quality. The segmentation tests were performed from a second audio dataset compiled by the author, and obtained Dice scores of 85.10% on the noiseless audios, 77.95% on the noisy audios, and 76.12% on the audios that had their noise removed through the SEGAN network. After the results are presented, a comparison is made between the obtained results and some related works currently present in the literature.
Abstract: A presença de ruídos aditivos é um dos principais problemas em sistemas de reconhecimento de áudio digital, pois dificultam a etapa de segmentação dos trechos relevantes de áudio, além de reduzir o desempenho dos classificadores. O principal objetivo desse trabalho é desenvolver um método de remoção de ruído e segmentação em arquivos de áudio digital, com foco nos arquivos gerados pelo método de observação direta, onde um observador grava em áudio todas as ações executadas pelo espécime observado de forma codificada em Bite Categories. Esse método pré-processa os arquivos de áudio a fim de normalizá-los e de reduzir sua dimensionalidade, posteriormente sendo utilizada a rede geradora adversária SEGAN para a remoção dos ruídos. A etapa de segmentação do áudio começa com um pré-processamento que atenua os vales do sinal e enfatiza os picos, de forma similar `a normalização do sinal, seguido da aplicação de uma função de silenciamento de vales, com base no desvio padrão e escore padronizado. A segmentação é realizada a partir de uma função de mapeamento que encontra os tempos de início e fim de cada segmento com base na detecção de silêncios usando janelas deslizantes com sobreposição. Os testes de remoção de ruídos foram realizados através de um estudo duplo-cego, utilizando questionários com escala de Likert unipolar de 5 pontos e uma base de áudios compilada pelo autor, de forma a medir subjetivamente a qualidade do método, onde se obteve uma média 3,56 de 5 na remoção de ruídos e média 4,14 de 5 na qualidade geral do áudio. Os testes de segmentação foram realizados a partir de uma segunda base de áudios compilada pelo autor, onde se obteve um coeficiente de similaridade de Dice de 85,10% para os áudios sem ruído, 77,95% para os áudios ruidosos e 76,12% para os áudios com o ruído removido através da SEGAN. Após a apresentação dos resultados, compara-se o desempenho dos métodos propostos com alguns trabalhos relacionados presentes na literatura..
Palavras-chave: Processamento de áudio
Remoçao de ruídos
Segmentação de áudio
Redes geradoras adversárias
Wavelets
Audio processing
Noise removal
Audio segmentation
Generative adversarial networks
Wavelets
Área(s) do CNPq: Ciência da Computação
Idioma: por
País: Brasil
Instituição: Universidade Federal do Maranhão
Sigla da instituição: UFMA
Departamento: DEPARTAMENTO DE INFORMÁTICA/CCET
Programa: PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET
Citação: PESSOA, Maurício Cesar Pinto. Remoção de ruídos aditivos e segmentação de palavras-chave em áudios. 2018. 83 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís.
Tipo de acesso: Acesso Aberto
URI: https://tedebc.ufma.br/jspui/handle/tede/tede/2469
Data de defesa: 23-Ago-2018
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MauricioPessoa.pdfDissertação de Mestrado1,83 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.