Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/6179
Registro completo de metadados
Campo DCValorIdioma
dc.creatorPIRES, Higo Felipe Silva-
dc.creator.Latteshttp://lattes.cnpq.br/9922891671880628por
dc.contributor.advisor1PAUCAR CASAS, Vicente Leonardo-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1155686983267102por
dc.contributor.advisor-co1CARVALHO, João Paulo Baptista de-
dc.contributor.referee1PAUCAR CASAS, Vicente Leonardo-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/1155686983267102por
dc.contributor.referee2CARVALHO, João Paulo Baptista de-
dc.contributor.referee3OLIVEIRA, Roberto Célio Limão de-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4497607460894318por
dc.contributor.referee4SERUFFO, Marcos César da Rocha-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/3794198610723464por
dc.contributor.referee5FONSECA NETO, João Viana da-
dc.contributor.referee5Latteshttp://lattes.cnpq.br/0029055473709795por
dc.date.accessioned2025-05-27T18:33:35Z-
dc.date.issued2025-04-16-
dc.identifier.citationPIRES, Higo Felipe Silva. DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos. 2025. 165 f. Tese( Programa de Pós-graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2025.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/6179-
dc.description.resumoA terminologia complexa e especializada da linguagem financeira nos mercados de língua portuguesa cria desafios significativos para as aplicações de processamento de linguagem natural (PLN), que devem capturar informações linguísticas e contextuais diferenciadas para apoiar análises e tomadas de decisão precisas. Este trabalho apresenta o DeB3RTa, um modelo baseado na arquitetura Transformer desenvolvido especificamente por meio de uma estratégia de pré-treinamento de domínio misto que combina corpora extensos de finanças, política, administração de negócios e contabilidade para permitir uma compreensão diferenciada da linguagem financeira. O DeB3RTa foi avaliado em comparação com modelos proeminentes — incluindo BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT e variantes baseadas em GPT — e obteve consistentemente ganhos significativos nos principais benchmarks de PLN financeiro. Para maximizar a adaptabilidade e a precisão, o DeB3RTa integra técnicas avançadas de fine-tuning, como reinicialização de camadas, regularização de Mixout, média estocástica de pesos e decaimento da taxa de aprendizado por camada, que, juntas, melhoram seu desempenho em tarefas de PLN variadas e de grande importância. Essas descobertas ressaltam a eficácia do pré-treinamento de domínio misto na criação de modelos de linguagem de alto desempenho para aplicações especializadas. Com seu desempenho robusto em tarefas analíticas e de classificação complexas, o DeB3RTa oferece uma ferramenta poderosa para o avanço da PLN no setor financeiro e para atender às necessidades de processamento de linguagem diferenciada em contextos de língua portuguesa.por
dc.description.abstractThe complex and specialized terminology of financial language in Portuguese-speaking markets create significant challenges for natural language processing (NLP) applications, which must capture nuanced linguistic and contextual information to support accurate analysis and decision-making. This paper presents DeB3RTa, a transformer-based model specifically developed through a mixed-domain pretraining strategy that combines extensive corpora from finance, politics, business management, and accounting to enable a nuanced understanding of financial language. DeB3RTa was evaluated against prominent models—including BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT, and GPTbased variants — and consistently achieved significant gains across key financial NLP benchmarks. To maximize adaptability and accuracy, DeB3RTa integrates advanced finetuning techniques such as layer reinitialization, Mixout regularization, stochastic weight averaging, and layer-wise learning rate decay, which together enhance its performance across varied and high-stakes NLP tasks. These findings underscore the efficacy of mixed-domain pretraining in building high-performance language models for specialized applications. With its robust performance in complex analytical and classification tasks, DeB3RTa offers a powerful tool for advancing NLP in the financial sector and supporting nuanced language processing needs in Portuguese-speaking contexts.eng
dc.description.provenanceSubmitted by Maria Aparecida (cidazen@gmail.com) on 2025-05-27T18:33:35Z No. of bitstreams: 1 Higo Felipe Silva Pires.pdf: 4847297 bytes, checksum: 1e840168bb0273ada27b5b3c64aff786 (MD5)eng
dc.description.provenanceMade available in DSpace on 2025-05-27T18:33:35Z (GMT). No. of bitstreams: 1 Higo Felipe Silva Pires.pdf: 4847297 bytes, checksum: 1e840168bb0273ada27b5b3c64aff786 (MD5) Previous issue date: 2025-04-16eng
dc.description.sponsorshipCAPESpor
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCETpor
dc.rightsAcesso Abertopor
dc.subjectProcessamento de Linguagem Natural em Português;por
dc.subjectProcessamento de Linguagem Financeira;por
dc.subjectTransformers;por
dc.subjectPré-treinamento de Domínio Misto;por
dc.subjectDecaimento da Taxa de Aprendizado por Camada;por
dc.subjectRegularização de Mixout;por
dc.subjectReinicialização de Camadas;por
dc.subjectArquitetura DeBERTa;por
dc.subjectClassificação de Textos Financeirospor
dc.subjectPortuguese Natural Language Processing;eng
dc.subjectFinancial Language Processing;eng
dc.subjectTransformers;eng
dc.subjectMixed Domain Pre-training;eng
dc.subjectLayer-wise Learning Rate Decay;eng
dc.subjectMixout Regularization;eng
dc.subjectLayer Resetting;eng
dc.subjectDeBERTa Architecture;eng
dc.subjectFinancial Text Classificationeng
dc.subject.cnpqArquitetura de Sistemas de Computaçãopor
dc.titleDeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistospor
dc.title.alternativeDeB3RTa: A pre-trained language model for analyzing financial texts in Portuguese using mixed domainseng
dc.typeTesepor
Aparece nas coleções:TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Higo Felipe Silva Pires.pdfTese de Doutorado4,73 MBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.