@PHDTHESIS{ 2025:1928166337, title = {DeB3RTa: Um modelo de linguagem pré-treinado para análise de textos financeiros em português usando domínios mistos}, year = {2025}, url = "https://tedebc.ufma.br/jspui/handle/tede/6179", abstract = "A terminologia complexa e especializada da linguagem financeira nos mercados de língua portuguesa cria desafios significativos para as aplicações de processamento de linguagem natural (PLN), que devem capturar informações linguísticas e contextuais diferenciadas para apoiar análises e tomadas de decisão precisas. Este trabalho apresenta o DeB3RTa, um modelo baseado na arquitetura Transformer desenvolvido especificamente por meio de uma estratégia de pré-treinamento de domínio misto que combina corpora extensos de finanças, política, administração de negócios e contabilidade para permitir uma compreensão diferenciada da linguagem financeira. O DeB3RTa foi avaliado em comparação com modelos proeminentes — incluindo BERTimbau, XLM-RoBERTa, SEC-BERT, BusinessBERT e variantes baseadas em GPT — e obteve consistentemente ganhos significativos nos principais benchmarks de PLN financeiro. Para maximizar a adaptabilidade e a precisão, o DeB3RTa integra técnicas avançadas de fine-tuning, como reinicialização de camadas, regularização de Mixout, média estocástica de pesos e decaimento da taxa de aprendizado por camada, que, juntas, melhoram seu desempenho em tarefas de PLN variadas e de grande importância. Essas descobertas ressaltam a eficácia do pré-treinamento de domínio misto na criação de modelos de linguagem de alto desempenho para aplicações especializadas. Com seu desempenho robusto em tarefas analíticas e de classificação complexas, o DeB3RTa oferece uma ferramenta poderosa para o avanço da PLN no setor financeiro e para atender às necessidades de processamento de linguagem diferenciada em contextos de língua portuguesa.", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE ELETRICIDADE/CCET}, note = {DEPARTAMENTO DE ENGENHARIA DA ELETRICIDADE/CCET} }