Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção

Exportar este item:

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/7059

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	BERNHARD, Pedro Vinnícius	-
dc.creator.Lattes	http://lattes.cnpq.br/0530246307062341	por
dc.contributor.advisor1	ALMEIDA, João Dallyson Sousa de	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6047330108382641	por
dc.contributor.advisor-co1	PAIVA, Anselmo Cardoso de	-
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/6446831084215512	por
dc.contributor.referee1	ALMEIDA, João Dallyson Sousa de	-
dc.contributor.referee1Lattes	http://lattes.cnpq.br/6047330108382641	por
dc.contributor.referee2	PAIVA, Anselmo Cardoso de	-
dc.contributor.referee2Lattes	http://lattes.cnpq.br/6446831084215512	por
dc.contributor.referee3	QUINTANILHA, Darlan Bruno Pontes	-
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4222253532775153	por
dc.contributor.referee4	MARINHO, Leandro Balby	-
dc.contributor.referee4Lattes	http://lattes.cnpq.br/3728312501032061	por
dc.date.accessioned	2026-06-19T11:40:18Z	-
dc.date.issued	2026-04-29	-
dc.identifier.citation	BERNHARD, Pedro Vinnícius. Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção. 2026. 105 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2026.	por
dc.identifier.uri	https://tedebc.ufma.br/jspui/handle/tede/7059	-
dc.description.resumo	O volume massivo e a complexidade técnica dos documentos jurídicos no Brasil impõem um grande desafio à celeridade do sistema judiciário. A sumarização automática surge como uma alternativa para mitigar essa sobrecarga e auxiliar o trabalho de magistrados e advogados. No entanto, a aplicação de modelos de aprendizado profundo no Direito enfrenta obstáculos críticos: a opacidade algorítmica (“caixa-preta”), o risco inaceitável de alucinações factuais em modelos generativos e a severa escassez de dados rotulados para treinamento. Dessa forma, o desenvolvimento de soluções que unam fidelidade fática e interpretabilidade é essencial. Neste contexto, este trabalho propõe um método não supervisionado de sumarização extrativa focado no domínio jurídico, estruturado na modelagem de grafos semânticos guiados por mecanismos de atenção. O método extrai os pesos de autoatenção de um modelo de linguagem especialista (Legal-BERTimbau) e filtra conexões ruidosas via binarização dinâmica pelo método de Otsu. O texto é convertido em um grafo direcionado, particionado tematicamente pelo algoritmo Infomap Hierárquico para isolar os eixos argumentativos. O alinhamento dos tópicos é realizado em um espaço vetorial denso (Sentence-BERT), e as sentenças são ranqueadas pela heurística de Atenção Máxima, respeitando um limite estrito de compressão de 10%. Na avaliação utilizando a base de dados RulingBR, o modelo proposto superou os algoritmos clássicos não supervisionados nas métricas ROUGE-1 (36,61%) e ROUGE-L (20,74%). Experimentos adicionais com um Oráculo Extrativo demarcaram o limite superior da tarefa em um ROUGE-1 de 65,21% e ROUGE-L de 47,37%, enquanto uma abordagem híbrida extrativa guiada por um LLM (GPT-5 mini) alcançou um ROUGE-L de 21,31%. Assim, o método desenvolvido demonstra-se promissor ao garantir a integridade do texto original, livre de alucinações processuais, oferecendo adicionalmente uma interface de explicabilidade visual que torna a seleção de sentenças totalmente auditável.	por
dc.description.abstract	The massive volume and technical complexity of legal documents in Brazil impose a major challenge to the efficiency of the judicial system. Automatic summarization emerges as an alternative to mitigate this overload and assist the work of judges and lawyers. However, the application of deep learning models in Law faces critical obstacles: algorithmic opacity (“black-box”), the unacceptable risk of factual hallucinations in generative models, and the severe scarcity of labeled data for training. Thus, the development of solutions that unite factual fidelity and interpretability is essential. In this context, this work proposes an unsupervised extractive summarization method focused on the legal domain, structured on the modeling of semantic graphs guided by attention mechanisms. The method extracts self-attention weights from an expert language model (Legal-BERTimbau) and filters noisy connections via dynamic binarization using Otsu’s method. The text is converted into a directed graph, thematically partitioned by the Hierarchical Infomap algorithm to isolate the argumentative axes. Topic alignment is performed in a dense vector space (Sentence-BERT), and sentences are ranked by the Maximum Attention heuristic, respecting a strict compression limit of 10%. In the evaluation using the RulingBR dataset, the proposed model outperformed classical unsupervised algorithms in the ROUGE-1 (36.61%) and ROUGE-L (20.74%) metrics. Additional experiments with an Extractive Oracle demarcated the upper bound of the task at a ROUGE-1 of 65.21% and ROUGE-L of 47.37%, while a hybrid extractive approach guided by an LLM (GPT-5 mini) achieved a ROUGE-L of 21.31%. Thus, the developed method proves promising by ensuring the integrity of the original text, free from procedural hallucinations, additionally offering a visual explainability interface that makes sentence selection fully auditable.	eng
dc.description.provenance	Submitted by Jonathan Sousa de Almeida (jonathan.sousa@ufma.br) on 2026-06-19T11:40:18Z No. of bitstreams: 1 Pedro_Bernhard.pdf: 398627 bytes, checksum: f0c6a7ccc2192c20e35f2d46d6f14c92 (MD5)	eng
dc.description.provenance	Made available in DSpace on 2026-06-19T11:40:18Z (GMT). No. of bitstreams: 1 Pedro_Bernhard.pdf: 398627 bytes, checksum: f0c6a7ccc2192c20e35f2d46d6f14c92 (MD5) Previous issue date: 2026-04-29	eng
dc.description.sponsorship	FAPEMA	por
dc.format	application/pdf	*
dc.language	por	por
dc.publisher	Universidade Federal do Maranhão	por
dc.publisher.department	DEPARTAMENTO DE INFORMÁTICA/CCET	por
dc.publisher.country	Brasil	por
dc.publisher.initials	UFMA	por
dc.publisher.program	PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET	por
dc.rights	Acesso Aberto	por
dc.subject	sumarização extrativa;	por
dc.subject	processamento de linguagem natural jurídico;	por
dc.subject	grafos semânticos;	por
dc.subject	atenção;	por
dc.subject	interpretabilidade de modelos;	por
dc.subject	aprendizado não supervisionado.	por
dc.subject	extractive summarization;	eng
dc.subject	legal natural language processing;	eng
dc.subject	attention graphs;	eng
dc.subject	model interpretability;	eng
dc.subject	unsupervised learning.	eng
dc.subject.cnpq	Ciência da Computação	por
dc.title	Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção	por
dc.title.alternative	Unsupervised method of extractive summarization of legal texts with attention-guided semantic graph alignment	eng
dc.type	Dissertação	por
Aparece nas coleções:	DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Pedro_Bernhard.pdf	Dissertação de Mestrado - Documento sob sigilo. Prazo provável para disponibilização total: 3 anos. Motivo do sigilo: publicação.	389,28 kB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Universidade Federal do Maranhão

Biblioteca Digital de Teses e Dissertações