@MASTERSTHESIS{ 2026:1881356660, title = {Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção}, year = {2026}, url = "https://tedebc.ufma.br/jspui/handle/tede/7059", abstract = "O volume massivo e a complexidade técnica dos documentos jurídicos no Brasil impõem um grande desafio à celeridade do sistema judiciário. A sumarização automática surge como uma alternativa para mitigar essa sobrecarga e auxiliar o trabalho de magistrados e advogados. No entanto, a aplicação de modelos de aprendizado profundo no Direito enfrenta obstáculos críticos: a opacidade algorítmica (“caixa-preta”), o risco inaceitável de alucinações factuais em modelos generativos e a severa escassez de dados rotulados para treinamento. Dessa forma, o desenvolvimento de soluções que unam fidelidade fática e interpretabilidade é essencial. Neste contexto, este trabalho propõe um método não supervisionado de sumarização extrativa focado no domínio jurídico, estruturado na modelagem de grafos semânticos guiados por mecanismos de atenção. O método extrai os pesos de autoatenção de um modelo de linguagem especialista (Legal-BERTimbau) e filtra conexões ruidosas via binarização dinâmica pelo método de Otsu. O texto é convertido em um grafo direcionado, particionado tematicamente pelo algoritmo Infomap Hierárquico para isolar os eixos argumentativos. O alinhamento dos tópicos é realizado em um espaço vetorial denso (Sentence-BERT), e as sentenças são ranqueadas pela heurística de Atenção Máxima, respeitando um limite estrito de compressão de 10%. Na avaliação utilizando a base de dados RulingBR, o modelo proposto superou os algoritmos clássicos não supervisionados nas métricas ROUGE-1 (36,61%) e ROUGE-L (20,74%). Experimentos adicionais com um Oráculo Extrativo demarcaram o limite superior da tarefa em um ROUGE-1 de 65,21% e ROUGE-L de 47,37%, enquanto uma abordagem híbrida extrativa guiada por um LLM (GPT-5 mini) alcançou um ROUGE-L de 21,31%. Assim, o método desenvolvido demonstra-se promissor ao garantir a integridade do texto original, livre de alucinações processuais, oferecendo adicionalmente uma interface de explicabilidade visual que torna a seleção de sentenças totalmente auditável.", publisher = {Universidade Federal do Maranhão}, scholl = {PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET}, note = {DEPARTAMENTO DE INFORMÁTICA/CCET} }