Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: https://tedebc.ufma.br/jspui/handle/tede/7059
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBERNHARD, Pedro Vinnícius-
dc.creator.Latteshttp://lattes.cnpq.br/0530246307062341por
dc.contributor.advisor1ALMEIDA, João Dallyson Sousa de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6047330108382641por
dc.contributor.advisor-co1PAIVA, Anselmo Cardoso de-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6446831084215512por
dc.contributor.referee1ALMEIDA, João Dallyson Sousa de-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6047330108382641por
dc.contributor.referee2PAIVA, Anselmo Cardoso de-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6446831084215512por
dc.contributor.referee3QUINTANILHA, Darlan Bruno Pontes-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4222253532775153por
dc.contributor.referee4MARINHO, Leandro Balby-
dc.contributor.referee4Latteshttp://lattes.cnpq.br/3728312501032061por
dc.date.accessioned2026-06-19T11:40:18Z-
dc.date.issued2026-04-29-
dc.identifier.citationBERNHARD, Pedro Vinnícius. Método não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atenção. 2026. 105 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2026.por
dc.identifier.urihttps://tedebc.ufma.br/jspui/handle/tede/7059-
dc.description.resumoO volume massivo e a complexidade técnica dos documentos jurídicos no Brasil impõem um grande desafio à celeridade do sistema judiciário. A sumarização automática surge como uma alternativa para mitigar essa sobrecarga e auxiliar o trabalho de magistrados e advogados. No entanto, a aplicação de modelos de aprendizado profundo no Direito enfrenta obstáculos críticos: a opacidade algorítmica (“caixa-preta”), o risco inaceitável de alucinações factuais em modelos generativos e a severa escassez de dados rotulados para treinamento. Dessa forma, o desenvolvimento de soluções que unam fidelidade fática e interpretabilidade é essencial. Neste contexto, este trabalho propõe um método não supervisionado de sumarização extrativa focado no domínio jurídico, estruturado na modelagem de grafos semânticos guiados por mecanismos de atenção. O método extrai os pesos de autoatenção de um modelo de linguagem especialista (Legal-BERTimbau) e filtra conexões ruidosas via binarização dinâmica pelo método de Otsu. O texto é convertido em um grafo direcionado, particionado tematicamente pelo algoritmo Infomap Hierárquico para isolar os eixos argumentativos. O alinhamento dos tópicos é realizado em um espaço vetorial denso (Sentence-BERT), e as sentenças são ranqueadas pela heurística de Atenção Máxima, respeitando um limite estrito de compressão de 10%. Na avaliação utilizando a base de dados RulingBR, o modelo proposto superou os algoritmos clássicos não supervisionados nas métricas ROUGE-1 (36,61%) e ROUGE-L (20,74%). Experimentos adicionais com um Oráculo Extrativo demarcaram o limite superior da tarefa em um ROUGE-1 de 65,21% e ROUGE-L de 47,37%, enquanto uma abordagem híbrida extrativa guiada por um LLM (GPT-5 mini) alcançou um ROUGE-L de 21,31%. Assim, o método desenvolvido demonstra-se promissor ao garantir a integridade do texto original, livre de alucinações processuais, oferecendo adicionalmente uma interface de explicabilidade visual que torna a seleção de sentenças totalmente auditável.por
dc.description.abstractThe massive volume and technical complexity of legal documents in Brazil impose a major challenge to the efficiency of the judicial system. Automatic summarization emerges as an alternative to mitigate this overload and assist the work of judges and lawyers. However, the application of deep learning models in Law faces critical obstacles: algorithmic opacity (“black-box”), the unacceptable risk of factual hallucinations in generative models, and the severe scarcity of labeled data for training. Thus, the development of solutions that unite factual fidelity and interpretability is essential. In this context, this work proposes an unsupervised extractive summarization method focused on the legal domain, structured on the modeling of semantic graphs guided by attention mechanisms. The method extracts self-attention weights from an expert language model (Legal-BERTimbau) and filters noisy connections via dynamic binarization using Otsu’s method. The text is converted into a directed graph, thematically partitioned by the Hierarchical Infomap algorithm to isolate the argumentative axes. Topic alignment is performed in a dense vector space (Sentence-BERT), and sentences are ranked by the Maximum Attention heuristic, respecting a strict compression limit of 10%. In the evaluation using the RulingBR dataset, the proposed model outperformed classical unsupervised algorithms in the ROUGE-1 (36.61%) and ROUGE-L (20.74%) metrics. Additional experiments with an Extractive Oracle demarcated the upper bound of the task at a ROUGE-1 of 65.21% and ROUGE-L of 47.37%, while a hybrid extractive approach guided by an LLM (GPT-5 mini) achieved a ROUGE-L of 21.31%. Thus, the developed method proves promising by ensuring the integrity of the original text, free from procedural hallucinations, additionally offering a visual explainability interface that makes sentence selection fully auditable.eng
dc.description.provenanceSubmitted by Jonathan Sousa de Almeida (jonathan.sousa@ufma.br) on 2026-06-19T11:40:18Z No. of bitstreams: 1 Pedro_Bernhard.pdf: 398627 bytes, checksum: f0c6a7ccc2192c20e35f2d46d6f14c92 (MD5)eng
dc.description.provenanceMade available in DSpace on 2026-06-19T11:40:18Z (GMT). No. of bitstreams: 1 Pedro_Bernhard.pdf: 398627 bytes, checksum: f0c6a7ccc2192c20e35f2d46d6f14c92 (MD5) Previous issue date: 2026-04-29eng
dc.description.sponsorshipFAPEMApor
dc.formatapplication/pdf*
dc.languageporpor
dc.publisherUniversidade Federal do Maranhãopor
dc.publisher.departmentDEPARTAMENTO DE INFORMÁTICA/CCETpor
dc.publisher.countryBrasilpor
dc.publisher.initialsUFMApor
dc.publisher.programPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETpor
dc.rightsAcesso Abertopor
dc.subjectsumarização extrativa;por
dc.subjectprocessamento de linguagem natural jurídico;por
dc.subjectgrafos semânticos;por
dc.subjectatenção;por
dc.subjectinterpretabilidade de modelos;por
dc.subjectaprendizado não supervisionado.por
dc.subjectextractive summarization;eng
dc.subjectlegal natural language processing;eng
dc.subjectattention graphs;eng
dc.subjectmodel interpretability;eng
dc.subjectunsupervised learning.eng
dc.subject.cnpqCiência da Computaçãopor
dc.titleMétodo não supervisionado de sumarização extrativa de textos jurídicos com alinhamento de grafos semânticos guiados por atençãopor
dc.title.alternativeUnsupervised method of extractive summarization of legal texts with attention-guided semantic graph alignmenteng
dc.typeDissertaçãopor
Aparece nas coleções:DISSERTAÇÃO DE MESTRADO - PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Pedro_Bernhard.pdfDissertação de Mestrado - Documento sob sigilo. Prazo provável para disponibilização total: 3 anos. Motivo do sigilo: publicação.389,28 kBAdobe PDFBaixar/Abrir Pré-Visualizar


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.