ANÁLISE DE SIMILARIDADE SEMÂNTICA DE PATENTES UTILIZANDO PROCESSAMENTO DE LINGUAGEM NATURAL E BUSCA HÍBRIDA

Autores

Palavras-chave:

Propriedade Intelectual. Reivindicações de Patentes. Busca Semântica. Processamento Multilíngue. Embeddings.

Resumo

Este estudo apresenta o desenvolvimento e a validação de um sistema automatizado para triagem preliminar de patentes, fundamentado na análise semântica do campo de reivindicações (claims), seção que define o escopo técnico-jurídico da proteção. O sistema foi implementado em Python 3.11, utilizando técnicas de Processamento de Linguagem Natural (PLN), que permitem a interpretação computacional de textos, e embeddings, representações numéricas que possibilitam mensurar similaridade conceitual entre documentos. O modelo adotado, paraphrase-multilingual-mpnet-base-v2, foi integrado a uma base local e à API da Lens.org, que reúne milhões de patentes de múltiplas jurisdições. Na interface desenvolvida em Streamlit, o usuário insere o texto das claims e recebe uma lista ranqueada com as dez patentes mais semelhantes, acompanhadas de título, link e percentual de similaridade. A avaliação foi conduzida com 100 pares de patentes rotulados manualmente. Os resultados indicaram alto desempenho em situações claras e robustez consistente em cenários ambíguos. Conclui-se que a solução contribui para a eficiência, a padronização e a confiabilidade da triagem, reduzindo a sobrecarga de especialistas e ampliando a assertividade na proteção de ativos intangíveis em Núcleos de Inovação Tecnológica e departamentos de Propriedade Intelectual.

Downloads

Os dados de download ainda não estão disponíveis.

Referências

ALI, A. et al. Innovating patent retrieval: a comprehensive review of techniques, trends, and challenges in prior art searches. Applied System Innovation, v. 7, n. 5, p. 91, 2024. DOI: 10.3390/asi7050091. Disponível em: https://www.mdpi.com/2571-5577/7/5/91. Acesso em: 03 set. 2025.

BEKAMIRI, H.; HAIN, D. S.; JUROWETZKI, R. PatentSBERTa: a deep NLP based hybrid model for patent distance and classification using augmented SBERT. Technological Forecasting and Social Change, v. 206, art. 123536, 2024. DOI: 10.1016/j.techfore.2024.123536. Disponível em: https://doi.org/10.1016/j.techfore.2024.123536. Acesso em: 11 set. 2025.

BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python. Sebastopol: O’Reilly Media, 2009.

BRASIL. Lei nº 9.279, de 14 de maio de 1996. Regula direitos e obrigações relativos à propriedade industrial. Diário Oficial da União, Brasília, DF, 15 maio 1996. Disponível em: https://www.planalto.gov.br/ccivil_03/leis/l9279.htm. Acesso em: 10 jul. 2025.

CORMACK, G. V.; CLARKE, C. L. A.; BUETTCHER, S. Reciprocal rank fusion outperforms Condorcet and individual rank learning methods. In: Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2009. p. 758–759. DOI: 10.1145/1571941.1572114. Disponível em: https://cormack.uwaterloo.ca/cormacksigir09-rrf.pdf. Acesso em: 17 set. 2025.

GARCEZ JÚNIOR, S. S.; ELOY, B. R.; SANTOS, J. A. B. dos. A qualidade dos privilégios patentários concedidos no Brasil sob a ótica das ações judiciais de nulidade de patentes. Revista Direito GV, São Paulo, v. 17, n. 1, e2116, 2021.

JIANG, L.; GOETZ, S. M. Natural language processing in the patent domain: a survey. Artificial Intelligence Review, v. 58, art. 214, 2025. DOI: 10.1007/s10462-025-11168-z. Disponível em: https://link.springer.com/article/10.1007/s10462-025-11168-z. Acesso em: 12 set. 2025.

JIANG, L.; GOETZ, S. M. Natural Language Processing in the Patent Domain: a survey. arXiv preprint, arXiv:2403.04105, 2024. Disponível em: https://arxiv.org/abs/2403.04105. Acesso em: 17 set. 2025.

LEE, J.-S.; HSIANG, J. Patent classification by fine-tuning BERT language model. World Patent Information, v. 61, 101965, 2020. DOI: 10.1016/j.wpi.2020.101965. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0172219019300742. Acesso em: 05 set. 2025.

LIU, X.; LIN, J.; MA, C. On fusion of dense and sparse retrieval for open-domain QA. In: European Conference on Information Retrieval (ECIR). Cham: Springer, 2022.

MARTINEZ, C.; ZEMŁA-PACUD, Ż.; BELOWSKA, J. The significance of provisional patent applications in protecting early-stage inventions: a legal and empirical analysis. IIC – International Review of Intellectual Property and Competition Law, v. 55, p. 1381–1413, 2024. DOI: 10.1007/s40319-024-01521-0.

NOGUEIRA, R.; CHO, K. Passage re-ranking with BERT. arXiv preprint, arXiv:1901.04085, 2019. Disponível em: https://arxiv.org/abs/1901.04085. Acesso em: 17 set. 2025.

OMC – ORGANIZAÇÃO MUNDIAL DO COMÉRCIO. Acordo sobre os Aspectos dos Direitos de Propriedade Intelectual Relacionados ao Comércio (TRIPS/ADPIC). Marraqueche, 1994.

PENFOLD, S. The Lens.org API documentation. Canberra: Lens Collective, 2020. Disponível em: https://www.lens.org. Acesso em: 20 jul. 2025.

PIROI, F. et al. CLEF-IP 2011: retrieval in the intellectual property domain. CEUR Workshop Proceedings, 2011. Disponível em: https://ceur-ws.org/Vol-1177/CLEF2011wn-CLEF-IP-PiroiEt2011.pdf. Acesso em: 03 set. 2025.

PIROI, F.; LUPU, M.; HANBURY, A. Overview of CLEF-IP 2013 Lab: information retrieval in the patent domain. CEUR Workshop Proceedings, 2013. Disponível em: https://ceur-ws.org/Vol-1179/CLEF2013wn-CLEFIP-PiroiEt2013.pdf. Acesso em: 09 set. 2025.

POWERS, D. M. W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies, v. 2, n. 1, p. 37–63, 2011.

REIMERS, N.; GUREVYCH, I. Sentence-BERT: sentence embeddings using Siamese BERT-networks. In: EMNLP-IJCNLP. Stroudsburg: ACL, 2019. Disponível em: https://arxiv.org/abs/1908.10084. Acesso em: 22 jul. 2025.

SHARMA, A. et al. PatentSBERTa: a deep NLP model for patent similarity and search. arXiv preprint, arXiv:2103.11933, 2021. Disponível em: https://arxiv.org/abs/2103.11933. Acesso em: 17 set. 2025.

SHOMEE, H. H. et al. A survey on patent analysis: from NLP to multimodal AI. In: Proceedings of ACL 2025. 2025. Disponível em: https://aclanthology.org/2025.acl-long.419.pdf. Acesso em: 17 set. 2025.

TSENG, Y. H.; LIN, C. J.; LIN, Y. I. Text mining techniques for patent analysis. Information Processing & Management, v. 43, n. 5, p. 1216–1247, 2007. DOI: 10.1016/j.ipm.2006.11.011. Acesso em: 15 jul. 2025.

WANG, S. et al. Structure-enhanced pre-training for sentence representation. arXiv preprint, arXiv:2004.09297, 2020. Disponível em: https://arxiv.org/abs/2004.09297. Acesso em: 20 jul. 2025.

WORLD INTELLECTUAL PROPERTY ORGANIZATION. Managing intellectual property for public research institutions. Geneva: WIPO, 2023. Disponível em: https://www.wipo.int/publications/en/details.jsp?id=4662. Acesso em: 10 jul. 2025.

WORLD INTELLECTUAL PROPERTY ORGANIZATION. World intellectual property indicators 2022. Geneva: WIPO, 2022. Disponível em: https://www.wipo.int/publications/en/details.jsp?id=4528. Acesso em: 10 jul. 2025.

Publicado

2025-11-15

Como Citar

AGUIAR, Isabela; CAMPOS DOS SANTOS, José Laurindo; CORRÊA FLÔRES ALBUQUERQUE, Andréa. ANÁLISE DE SIMILARIDADE SEMÂNTICA DE PATENTES UTILIZANDO PROCESSAMENTO DE LINGUAGEM NATURAL E BUSCA HÍBRIDA. Revista Brasileira de Desenvolvimento e Inovação, [S. l.], v. 2, n. 4, 2025. Disponível em: https://rbdin.com.br/index.php/revista/article/view/63. Acesso em: 29 nov. 2025.

Artigos Semelhantes

1-10 de 64

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.