Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/7059

Tipo do documento:	Dissertação
Título:	Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção
Título(s) alternativo(s):	Unsupervised method of extractive summarization of legal texts with attention-guided semantic graph alignment
Autor:	BERNHARD, Pedro Vinnícius
Primeiro orientador:	ALMEIDA, João Dallyson Sousa de
Primeiro coorientador:	PAIVA, Anselmo Cardoso de
Primeiro membro da banca:	ALMEIDA, João Dallyson Sousa de
Segundo membro da banca:	PAIVA, Anselmo Cardoso de
Terceiro membro da banca:	QUINTANILHA, Darlan Bruno Pontes
Quarto membro da banca:	MARINHO, Leandro Balby
Resumo:	O volume massivo e a complexidade técnica dos documentos jurídicos no Brasil impõem um grande desafio à celeridade do sistema judiciário. A sumarização automática surge como uma alternativa para mitigar essa sobrecarga e auxiliar o trabalho de magistrados e advogados. No entanto, a aplicação de modelos de aprendizado profundo no Direito enfrenta obstáculos críticos: a opacidade algorítmica (“caixa-preta”), o risco inaceitável de alucinações factuais em modelos generativos e a severa escassez de dados rotulados para treinamento. Dessa forma, o desenvolvimento de soluções que unam fidelidade fática e interpretabilidade é essencial. Neste contexto, este trabalho propõe um método não supervisionado de sumarização extrativa focado no domínio jurídico, estruturado na modelagem de grafos semânticos guiados por mecanismos de atenção. O método extrai os pesos de autoatenção de um modelo de linguagem especialista (Legal-BERTimbau) e filtra conexões ruidosas via binarização dinâmica pelo método de Otsu. O texto é convertido em um grafo direcionado, particionado tematicamente pelo algoritmo Infomap Hierárquico para isolar os eixos argumentativos. O alinhamento dos tópicos é realizado em um espaço vetorial denso (Sentence-BERT), e as sentenças são ranqueadas pela heurística de Atenção Máxima, respeitando um limite estrito de compressão de 10%. Na avaliação utilizando a base de dados RulingBR, o modelo proposto superou os algoritmos clássicos não supervisionados nas métricas ROUGE-1 (36,61%) e ROUGE-L (20,74%). Experimentos adicionais com um Oráculo Extrativo demarcaram o limite superior da tarefa em um ROUGE-1 de 65,21% e ROUGE-L de 47,37%, enquanto uma abordagem híbrida extrativa guiada por um LLM (GPT-5 mini) alcançou um ROUGE-L de 21,31%. Assim, o método desenvolvido demonstra-se promissor ao garantir a integridade do texto original, livre de alucinações processuais, oferecendo adicionalmente uma interface de explicabilidade visual que torna a seleção de sentenças totalmente auditável.
Abstract:	The massive volume and technical complexity of legal documents in Brazil impose a major challenge to the efficiency of the judicial system. Automatic summarization emerges as an alternative to mitigate this overload and assist the work of judges and lawyers. However, the application of deep learning models in Law faces critical obstacles: algorithmic opacity (“black-box”), the unacceptable risk of factual hallucinations in generative models, and the severe scarcity of labeled data for training. Thus, the development of solutions that unite factual fidelity and interpretability is essential. In this context, this work proposes an unsupervised extractive summarization method focused on the legal domain, structured on the modeling of semantic graphs guided by attention mechanisms. The method extracts self-attention weights from an expert language model (Legal-BERTimbau) and filters noisy connections via dynamic binarization using Otsu’s method. The text is converted into a directed graph, thematically partitioned by the Hierarchical Infomap algorithm to isolate the argumentative axes. Topic alignment is performed in a dense vector space (Sentence-BERT), and sentences are ranked by the Maximum Attention heuristic, respecting a strict compression limit of 10%. In the evaluation using the RulingBR dataset, the proposed model outperformed classical unsupervised algorithms in the ROUGE-1 (36.61%) and ROUGE-L (20.74%) metrics. Additional experiments with an Extractive Oracle demarcated the upper bound of the task at a ROUGE-1 of 65.21% and ROUGE-L of 47.37%, while a hybrid extractive approach guided by an LLM (GPT-5 mini) achieved a ROUGE-L of 21.31%. Thus, the developed method proves promising by ensuring the integrity of the original text, free from procedural hallucinations, additionally offering a visual explainability interface that makes sentence selection fully auditable.
Palavras-chave:	sumarização extrativa; processamento de linguagem natural jurídico; grafos semânticos; atenção; interpretabilidade de modelos; aprendizado não supervisionado. extractive summarization; legal natural language processing; attention graphs; model interpretability; unsupervised learning.
Área(s) do CNPq:	Ciência da Computação
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal do Maranhão
Sigla da instituição:	UFMA
Departamento:	DEPARTAMENTO DE INFORMÁTICA/CCET
Programa:	PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET
Citação:	BERNHARD, Pedro Vinnícius. Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção. 2026. 105 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2026.
Tipo de acesso:	Acesso Aberto
URI:	https://tedebc.ufma.br/jspui/handle/tede/7059
Data de defesa:	29-Abr-2026
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Pedro_Bernhard.pdf	Dissertação de Mestrado - Documento sob sigilo. Prazo provável para disponibilização total: 3 anos. Motivo do sigilo: publicação.	389,28 kB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações