Compartilhamento |
![]() ![]() |
Use este identificador para citar ou linkar para este item:
https://tedebc.ufma.br/jspui/handle/tede/6179
Tipo do documento: | Tese |
Título: | DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos |
Título(s) alternativo(s): | DeB3RTa: A pre-trained language model for analyzing financial texts in Portuguese using mixed domains |
Autor: | PIRES, Higo Felipe Silva ![]() |
Primeiro orientador: | PAUCAR CASAS, Vicente Leonardo |
Primeiro coorientador: | CARVALHO, João Paulo Baptista de |
Primeiro membro da banca: | PAUCAR CASAS, Vicente Leonardo |
Segundo membro da banca: | CARVALHO, João Paulo Baptista de |
Terceiro membro da banca: | OLIVEIRA, Roberto Célio Limão de |
Quarto membro da banca: | SERUFFO, Marcos César da Rocha |
Quinto membro da banca: | FONSECA NETO, João Viana da |
Resumo: | A terminologia complexa e especializada da linguagem financeira nos mercados de língua portuguesa cria desafios significativos para as aplicações de processamento de linguagem natural (PLN), que devem capturar informações linguísticas e contextuais diferenciadas para apoiar análises e tomadas de decisão precisas. Este trabalho apresenta o DeB3RTa, um modelo baseado na arquitetura Transformer desenvolvido especificamente por meio de uma estratégia de pré-treinamento de domínio misto que combina corpora extensos de finanças, política, administração de negócios e contabilidade para permitir uma compreensão diferenciada da linguagem financeira. O DeB3RTa foi avaliado em comparação com modelos proeminentes — incluindo BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT e variantes baseadas em GPT — e obteve consistentemente ganhos significativos nos principais benchmarks de PLN financeiro. Para maximizar a adaptabilidade e a precisão, o DeB3RTa integra técnicas avançadas de fine-tuning, como reinicialização de camadas, regularização de Mixout, média estocástica de pesos e decaimento da taxa de aprendizado por camada, que, juntas, melhoram seu desempenho em tarefas de PLN variadas e de grande importância. Essas descobertas ressaltam a eficácia do pré-treinamento de domínio misto na criação de modelos de linguagem de alto desempenho para aplicações especializadas. Com seu desempenho robusto em tarefas analíticas e de classificação complexas, o DeB3RTa oferece uma ferramenta poderosa para o avanço da PLN no setor financeiro e para atender às necessidades de processamento de linguagem diferenciada em contextos de língua portuguesa. |
Abstract: | The complex and specialized terminology of financial language in Portuguese-speaking markets create significant challenges for natural language processing (NLP) applications, which must capture nuanced linguistic and contextual information to support accurate analysis and decision-making. This paper presents DeB3RTa, a transformer-based model specifically developed through a mixed-domain pretraining strategy that combines extensive corpora from finance, politics, business management, and accounting to enable a nuanced understanding of financial language. DeB3RTa was evaluated against prominent models—including BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT, and GPTbased variants — and consistently achieved significant gains across key financial NLP benchmarks. To maximize adaptability and accuracy, DeB3RTa integrates advanced finetuning techniques such as layer reinitialization, Mixout regularization, stochastic weight averaging, and layer-wise learning rate decay, which together enhance its performance across varied and high-stakes NLP tasks. These findings underscore the efficacy of mixed-domain pretraining in building high-performance language models for specialized applications. With its robust performance in complex analytical and classification tasks, DeB3RTa offers a powerful tool for advancing NLP in the financial sector and supporting nuanced language processing needs in Portuguese-speaking contexts. |
Palavras-chave: | Processamento de Linguagem Natural em Português; Processamento de Linguagem Financeira; Transformers; Pré-treinamento de Domínio Misto; Decaimento da Taxa de Aprendizado por Camada; Regularização de Mixout; Reinicialização de Camadas; Arquitetura DeBERTa; Classificação de Textos Financeiros Portuguese Natural Language Processing; Financial Language Processing; Transformers; Mixed Domain Pre-training; Layer-wise Learning Rate Decay; Mixout Regularization; Layer Resetting; DeBERTa Architecture; Financial Text Classification |
Área(s) do CNPq: | Arquitetura de Sistemas de Computação |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade Federal do Maranhão |
Sigla da instituição: | UFMA |
Departamento: | DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET |
Programa: | PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET |
Citação: | PIRES, Higo Felipe Silva. DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos. 2025. 165 f. Tese( Programa de Pós-graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2025. |
Tipo de acesso: | Acesso Aberto |
URI: | https://tedebc.ufma.br/jspui/handle/tede/6179 |
Data de defesa: | 16-Abr-2025 |
Aparece nas coleções: | TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Higo Felipe Silva Pires.pdf | Tese de Doutorado | 4,73 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.