DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/6179

Tipo do documento:	Tese
Título:	DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos
Título(s) alternativo(s):	DeB3RTa: A pre-trained language model for analyzing financial texts in Portuguese using mixed domains
Autor:	PIRES, Higo Felipe Silva
Primeiro orientador:	PAUCAR CASAS, Vicente Leonardo
Primeiro coorientador:	CARVALHO, João Paulo Baptista de
Primeiro membro da banca:	PAUCAR CASAS, Vicente Leonardo
Segundo membro da banca:	CARVALHO, João Paulo Baptista de
Terceiro membro da banca:	OLIVEIRA, Roberto Célio Limão de
Quarto membro da banca:	SERUFFO, Marcos César da Rocha
Quinto membro da banca:	FONSECA NETO, João Viana da
Resumo:	A terminologia complexa e especializada da linguagem financeira nos mercados de língua portuguesa cria desafios significativos para as aplicações de processamento de linguagem natural (PLN), que devem capturar informações linguísticas e contextuais diferenciadas para apoiar análises e tomadas de decisão precisas. Este trabalho apresenta o DeB3RTa, um modelo baseado na arquitetura Transformer desenvolvido especificamente por meio de uma estratégia de pré-treinamento de domínio misto que combina corpora extensos de finanças, política, administração de negócios e contabilidade para permitir uma compreensão diferenciada da linguagem financeira. O DeB3RTa foi avaliado em comparação com modelos proeminentes — incluindo BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT e variantes baseadas em GPT — e obteve consistentemente ganhos significativos nos principais benchmarks de PLN financeiro. Para maximizar a adaptabilidade e a precisão, o DeB3RTa integra técnicas avançadas de fine-tuning, como reinicialização de camadas, regularização de Mixout, média estocástica de pesos e decaimento da taxa de aprendizado por camada, que, juntas, melhoram seu desempenho em tarefas de PLN variadas e de grande importância. Essas descobertas ressaltam a eficácia do pré-treinamento de domínio misto na criação de modelos de linguagem de alto desempenho para aplicações especializadas. Com seu desempenho robusto em tarefas analíticas e de classificação complexas, o DeB3RTa oferece uma ferramenta poderosa para o avanço da PLN no setor financeiro e para atender às necessidades de processamento de linguagem diferenciada em contextos de língua portuguesa.
Abstract:	The complex and specialized terminology of financial language in Portuguese-speaking markets create significant challenges for natural language processing (NLP) applications, which must capture nuanced linguistic and contextual information to support accurate analysis and decision-making. This paper presents DeB3RTa, a transformer-based model specifically developed through a mixed-domain pretraining strategy that combines extensive corpora from finance, politics, business management, and accounting to enable a nuanced understanding of financial language. DeB3RTa was evaluated against prominent models—including BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT, and GPTbased variants — and consistently achieved significant gains across key financial NLP benchmarks. To maximize adaptability and accuracy, DeB3RTa integrates advanced finetuning techniques such as layer reinitialization, Mixout regularization, stochastic weight averaging, and layer-wise learning rate decay, which together enhance its performance across varied and high-stakes NLP tasks. These findings underscore the efficacy of mixed-domain pretraining in building high-performance language models for specialized applications. With its robust performance in complex analytical and classification tasks, DeB3RTa offers a powerful tool for advancing NLP in the financial sector and supporting nuanced language processing needs in Portuguese-speaking contexts.
Palavras-chave:	Processamento de Linguagem Natural em Português; Processamento de Linguagem Financeira; Transformers; Pré-treinamento de Domínio Misto; Decaimento da Taxa de Aprendizado por Camada; Regularização de Mixout; Reinicialização de Camadas; Arquitetura DeBERTa; Classificação de Textos Financeiros Portuguese Natural Language Processing; Financial Language Processing; Transformers; Mixed Domain Pre-training; Layer-wise Learning Rate Decay; Mixout Regularization; Layer Resetting; DeBERTa Architecture; Financial Text Classification
Área(s) do CNPq:	Arquitetura de Sistemas de Computação
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET
Citação:	PIRES, Higo Felipe Silva. DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos. 2025. 165 f. Tese( Programa de Pós-graduação em Engenharia de Eletricidade/CCET) - Universidade Federal do Maranhão, São Luís, 2025.
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/6179
Data de defesa:	16-Abr-2025
Aparece nas coleções:	TESE DE DOUTORADO - PROGRAMA DE PÓS GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Higo Felipe Silva Pires.pdf	Tese de Doutorado	4,73 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações