ANÁLISE DE SIMILARIDADE SEMÂNTICA DE PATENTES UTILIZANDO PROCESSAMENTO DE LINGUAGEM NATURAL E BUSCA HÍBRIDA
Palavras-chave:
Propriedade Intelectual. Reivindicações de Patentes. Busca Semântica. Processamento Multilíngue. Embeddings.Resumo
Este estudo apresenta o desenvolvimento e a validação de um sistema automatizado para triagem preliminar de patentes, fundamentado na análise semântica do campo de reivindicações (claims), seção que define o escopo técnico-jurídico da proteção. O sistema foi implementado em Python 3.11, utilizando técnicas de Processamento de Linguagem Natural (PLN), que permitem a interpretação computacional de textos, e embeddings, representações numéricas que possibilitam mensurar similaridade conceitual entre documentos. O modelo adotado, paraphrase-multilingual-mpnet-base-v2, foi integrado a uma base local e à API da Lens.org, que reúne milhões de patentes de múltiplas jurisdições. Na interface desenvolvida em Streamlit, o usuário insere o texto das claims e recebe uma lista ranqueada com as dez patentes mais semelhantes, acompanhadas de título, link e percentual de similaridade. A avaliação foi conduzida com 100 pares de patentes rotulados manualmente. Os resultados indicaram alto desempenho em situações claras e robustez consistente em cenários ambíguos. Conclui-se que a solução contribui para a eficiência, a padronização e a confiabilidade da triagem, reduzindo a sobrecarga de especialistas e ampliando a assertividade na proteção de ativos intangíveis em Núcleos de Inovação Tecnológica e departamentos de Propriedade Intelectual.
Downloads
Referências
ALI, A. et al. Innovating patent retrieval: a comprehensive review of techniques, trends, and challenges in prior art searches. Applied System Innovation, v. 7, n. 5, p. 91, 2024. DOI: 10.3390/asi7050091. Disponível em: https://www.mdpi.com/2571-5577/7/5/91. Acesso em: 03 set. 2025.
BEKAMIRI, H.; HAIN, D. S.; JUROWETZKI, R. PatentSBERTa: a deep NLP based hybrid model for patent distance and classification using augmented SBERT. Technological Forecasting and Social Change, v. 206, art. 123536, 2024. DOI: 10.1016/j.techfore.2024.123536. Disponível em: https://doi.org/10.1016/j.techfore.2024.123536. Acesso em: 11 set. 2025.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python. Sebastopol: O’Reilly Media, 2009.
BRASIL. Lei nº 9.279, de 14 de maio de 1996. Regula direitos e obrigações relativos à propriedade industrial. Diário Oficial da União, Brasília, DF, 15 maio 1996. Disponível em: https://www.planalto.gov.br/ccivil_03/leis/l9279.htm. Acesso em: 10 jul. 2025.
CORMACK, G. V.; CLARKE, C. L. A.; BUETTCHER, S. Reciprocal rank fusion outperforms Condorcet and individual rank learning methods. In: Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009. p. 758–759. DOI: 10.1145/1571941.1572114. Disponível em: https://cormack.uwaterloo.ca/cormacksigir09-rrf.pdf. Acesso em: 17 set. 2025.
GARCEZ JÚNIOR, S. S.; ELOY, B. R.; SANTOS, J. A. B. dos. A qualidade dos privilégios patentários concedidos no Brasil sob a ótica das ações judiciais de nulidade de patentes. Revista Direito GV, São Paulo, v. 17, n. 1, e2116, 2021.
JIANG, L.; GOETZ, S. M. Natural language processing in the patent domain: a survey. Artificial Intelligence Review, v. 58, art. 214, 2025. DOI: 10.1007/s10462-025-11168-z. Disponível em: https://link.springer.com/article/10.1007/s10462-025-11168-z. Acesso em: 12 set. 2025.
JIANG, L.; GOETZ, S. M. Natural Language Processing in the Patent Domain: a survey. arXiv preprint, arXiv:2403.04105, 2024. Disponível em: https://arxiv.org/abs/2403.04105. Acesso em: 17 set. 2025.
LEE, J.-S.; HSIANG, J. Patent classification by fine-tuning BERT language model. World Patent Information, v. 61, 101965, 2020. DOI: 10.1016/j.wpi.2020.101965. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0172219019300742. Acesso em: 05 set. 2025.
LIU, X.; LIN, J.; MA, C. On fusion of dense and sparse retrieval for open-domain QA. In: European Conference on Information Retrieval (ECIR). Cham: Springer, 2022.
MARTINEZ, C.; ZEMŁA-PACUD, Ż.; BELOWSKA, J. The significance of provisional patent applications in protecting early-stage inventions: a legal and empirical analysis. IIC – International Review of Intellectual Property and Competition Law, v. 55, p. 1381–1413, 2024. DOI: 10.1007/s40319-024-01521-0.
NOGUEIRA, R.; CHO, K. Passage re-ranking with BERT. arXiv preprint, arXiv:1901.04085, 2019. Disponível em: https://arxiv.org/abs/1901.04085. Acesso em: 17 set. 2025.
OMC – ORGANIZAÇÃO MUNDIAL DO COMÉRCIO. Acordo sobre os Aspectos dos Direitos de Propriedade Intelectual Relacionados ao Comércio (TRIPS/ADPIC). Marraqueche, 1994.
PENFOLD, S. The Lens.org API documentation. Canberra: Lens Collective, 2020. Disponível em: https://www.lens.org. Acesso em: 20 jul. 2025.
PIROI, F. et al. CLEF-IP 2011: retrieval in the intellectual property domain. CEUR Workshop Proceedings, 2011. Disponível em: https://ceur-ws.org/Vol-1177/CLEF2011wn-CLEF-IP-PiroiEt2011.pdf. Acesso em: 03 set. 2025.
PIROI, F.; LUPU, M.; HANBURY, A. Overview of CLEF-IP 2013 Lab: information retrieval in the patent domain. CEUR Workshop Proceedings, 2013. Disponível em: https://ceur-ws.org/Vol-1179/CLEF2013wn-CLEFIP-PiroiEt2013.pdf. Acesso em: 09 set. 2025.
POWERS, D. M. W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies, v. 2, n. 1, p. 37–63, 2011.
REIMERS, N.; GUREVYCH, I. Sentence-BERT: sentence embeddings using Siamese BERT-networks. In: EMNLP-IJCNLP. Stroudsburg: ACL, 2019. Disponível em: https://arxiv.org/abs/1908.10084. Acesso em: 22 jul. 2025.
SHARMA, A. et al. PatentSBERTa: a deep NLP model for patent similarity and search. arXiv preprint, arXiv:2103.11933, 2021. Disponível em: https://arxiv.org/abs/2103.11933. Acesso em: 17 set. 2025.
SHOMEE, H. H. et al. A survey on patent analysis: from NLP to multimodal AI. In: Proceedings of ACL 2025. 2025. Disponível em: https://aclanthology.org/2025.acl-long.419.pdf. Acesso em: 17 set. 2025.
TSENG, Y. H.; LIN, C. J.; LIN, Y. I. Text mining techniques for patent analysis. Information Processing & Management, v. 43, n. 5, p. 1216–1247, 2007. DOI: 10.1016/j.ipm.2006.11.011. Acesso em: 15 jul. 2025.
WANG, S. et al. Structure-enhanced pre-training for sentence representation. arXiv preprint, arXiv:2004.09297, 2020. Disponível em: https://arxiv.org/abs/2004.09297. Acesso em: 20 jul. 2025.
WORLD INTELLECTUAL PROPERTY ORGANIZATION. Managing intellectual property for public research institutions. Geneva: WIPO, 2023. Disponível em: https://www.wipo.int/publications/en/details.jsp?id=4662. Acesso em: 10 jul. 2025.
WORLD INTELLECTUAL PROPERTY ORGANIZATION. World intellectual property indicators 2022. Geneva: WIPO, 2022. Disponível em: https://www.wipo.int/publications/en/details.jsp?id=4528. Acesso em: 10 jul. 2025.
Publicado
Edição
Seção
Licença
Copyright (c) 2025 Revista Brasileira de Desenvolvimento e Inovação

Esta obra está licenciado com uma Licença Creative Commons Attribution 3.0 Unported License.
Os autores se responsabilizam civil, administra e penalmente pela originalidade das publicações e tem ciência absoluta de que textos que não são de suas respectivas autorias podem gerar procedimentos judiciais ou administrativos, bem como a exclusão permanente do respectivo manuscrito da plataforma.
Autores que publicam nesta revista concordam com os seguintes termos:
a) Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution 3.0 Unported License, que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista. Esta licença permite que outros distribuam, remixem, adaptem ou criem obras derivadas, mesmo que para uso com fins comerciais, contanto que seja dado crédito pela criação original.
b) Não cabe aos autores compensação financeira a qualquer título, por artigos ou resenhas publicados na RBDIN.
c) Os artigos e resenhas publicados na RBDIN são de responsabilidade exclusiva dos autores.
d) Após sua aprovação, os autores serão identificados em cada artigo, devendo informar à RBDIN sua instituição de ensino/pesquisa de vínculo e seu endereço completo.
