Desidentificação de narrativas clínicas com modelos generativos de código aberto

Elisa Terumi Rubel Schneider; Fernando Henrique Schneider; Yohan Bonescki Gumiel; Lilian Mie Mukai Cintho; Adriana Pagano; Emerson Cabrera Paraiso; Marina de Sa Rebelo; Marco Antonio Gutierrez; Jose Eduardo Krieger; Claudia Moro

doi:10.59681/2175-4411.v16.iEspecial.2024.1365

Desidentificação de narrativas clínicas com modelos generativos de código aberto

Autores

Elisa Terumi Rubel Schneider FMUSP
Fernando Henrique Schneider FMUSP
Yohan Bonescki Gumiel FMUSP
Lilian Mie Mukai Cintho Universidade Estadual de Ponta Grossa
Adriana Pagano Universidade Federal de Minas Gerais
Emerson Cabrera Paraiso Pontifícia Universidade Católica do Paraná
Marina de Sa Rebelo FMUSP
Marco Antonio Gutierrez FMUSP
Jose Eduardo Krieger FMUSP
Claudia Moro Pontifícia Universidade Católica do Paraná

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Palavras-chave:

Inteligência Artificial, Processamento de Linguagem Natural, Prontuários Médicos

Resumo

Objetivos: A desidentificação de narrativas clínicas é essencial para proteger a privacidade dos pacientes e garantir a conformidade com as regulamentações. No entanto, é uma tarefa complexa devido aos distintos tipos de entidades a serem desidentificadas e à necessidade de processar os textos localmente, por questões de segurança e privacidade. Métodos: Este artigo apresenta um estudo experimental sobre desidentificação de narrativas clínicas utilizando modelos generativos de código aberto, que podem ser executados localmente. Resultados: Avaliamos a eficácia de cinco modelos de linguagem, comparando-os ao GPT-4, um modelo proprietário. Os modelos foram avaliados com base na precisão, recall e F-score. Nossos resultados preliminares indicam que, embora o GPT-4 tenha atingido o melhor desempenho, o modelo aberto Llama3, da Meta, demonstrou robustez e eficácia nesta tarefa. Conclusão: O estudo contribui para o campo ao fornecer insights sobre o desempenho de diferentes modelos na anonimização de narrativas clínicas.

Downloads

Não há dados estatísticos.

Biografia do Autor

Elisa Terumi Rubel Schneider, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Fernando Henrique Schneider, FMUSP

BSc, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Yohan Bonescki Gumiel, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

PhD, Universidade Estadual de Ponta Grossa (UEPG), Ponta Grossa (PR), Brazil

Adriana Pagano, Universidade Federal de Minas Gerais

PhD, Universidade Federal de Minas Gerais (UFMG), Belo Horizonte (MG), Brazil

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Marina de Sa Rebelo, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Marco Antonio Gutierrez, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Jose Eduardo Krieger, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Claudia Moro, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Referências

Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023

Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015

Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011

Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161.

Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.

Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.

Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9.

Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.

Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94.

Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.

Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600.

Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110.

Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).

Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021.

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.

Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.

CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.

Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.

Downloads

Publicado

19-11-2024

Como Citar

Schneider, E. T. R., Schneider, F. H., Gumiel, Y. B., Cintho, L. M. M., Pagano, A., Paraiso, E. C., … Moro, C. (2024). Desidentificação de narrativas clínicas com modelos generativos de código aberto. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Baixar Citação

Edição

v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde

Seção

CBIS 2024

Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Este trabalho está licenciado sob a Creative Commons Atribuição–Não Comercial–Compartilha Igual 4.0 Internacional (CC BY-NC-SA 4.0). Isso significa que qualquer pessoa pode ler, baixar, copiar, redistribuir e adaptar o material, desde que seja atribuída a devida autoria aos autores e à fonte original. O uso comercial do conteúdo não é permitido. Caso o material seja modificado, remixado ou utilizado para a criação de obras derivadas, estas deverão ser distribuídas sob a mesma licença. Essa licença favorece a ampla disseminação do conhecimento, assegurando o reconhecimento da autoria, restringindo a exploração comercial e garantindo que versões derivadas permaneçam acessíveis sob os mesmos termos.

Consulte a Licença

Artigos Semelhantes

Ricardo Bezerra Cavalcante, Simone Graziele Silva Cunha, Mariana Ferreira Vaz Contijo Bernardes, Tarcísio Laerte Gontijo, Eliete Albano de Azevedo Guimarães, Valéria da Conceição Oliveira, Sistema de Informação Hospitalar: utilização no processo decisório , Journal of Health Informatics: v. 4 n. 3 (2012)
Rildo Pinto da Silva, Antonio Pazin-Filho, Anonimização de textos médicos com processamento de linguagem natural , Journal of Health Informatics: v. 17 (2025)
Camili Gomes Pereira, Isabel Galdino da Silva Côrrea, Zilda de Santana Gonsalves, Panorama geral do uso de programas de inteligência artificial pelo farmacêutico hospitalar , Journal of Health Informatics: v. 18 (2026)
Cecilia Cordeiro da Silva, Ana Clara Gomes da Silva, Clarisse Lins de Lima, Maíra Araújo de Santana, Juliana Carneiro Gomes, Giselle Machado Magalhães Moreno, Karla Amorim Sancho, Heloísa Ramos Lacerda de Melo, Marcela Franklin Salvador de Mendonça, Wellington Pinheiro dos Santos, Diagnóstico da chikungunya por inteligência artificial e dados de prontuários , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Ítalo Santos de Oliveira, Rodrigo Rafael Villarreal Goulart, Detecção de discurso de ódio para o apoio à saúde mental , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Ari Pereira de Araújo Neto, Giovanny Rebouças Pinto, Joeckson dos Santos Corrêa, Liane Batista da Cruz Soares, Christyann Lima Campos Batista, Feliciana Santos Pinheiro, Ariel Soares Teles, Chatbots na identificação de problemas de amamentação: avaliação de desempenho , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Wesley Batista Dominices de Araujo, Ewaldo Eder Carvalho Santana, Nilviane Pires Silva, Carlos Magno Sousa Junior, Giullianno Lopes Moura, José Arnon Linhares Moraes dos Santos, Paloma Larissa Arruda Lopes, Wesley do Nascimento Silva, João Pedro Pereira Gonçalves, Felipe Castelo Branco Rocha Silva, Rede neural artificial aplicada ao diagnóstico de câncer de próstata , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Eduardo Mobilon, Igor Marques de Araujo, Luiz Antonio Buschetto Macarini, Luiz Eduardo Pita Mercês Almeida, Rodrigo Bernardo, Luis Paulo Fernandes de Barros, Renata Bastianon, Ricardo Mendes Alves Pereira, Gravador de vídeo de imagens médicas com visão computacional e desfoque facial , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Giovanna Alves Gadelha, Renan Augusto Pereira, Flávia Magalhães Guedes, Ana Trindade Winck, Processamento de Linguagem Natural na Identificação de Alérgenos em Rótulos Alimentares: Uma Aplicação no Contexto Brasileiro , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Eduarda Gomes Onofre de Araújo, Samara Lavínnya Serrano de Souza Araújo, Lucas do Nascimento Barbosa, Júlio César Guimarães Freire, Matheus Victor de Carvalho Rufino, Clauirton de Albuquerque Siebra, Lafayette Batista Melo, Januária de Medeiros Silva, Carmem Silva L. Dalle Piagge, Cláudia Batista Mélo, A inteligência artificial no ensino da Odontologia: uma análise bibliométrica , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde

1 2 3 4 5 6 7 8 9 10 > >>

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)

Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoio à decisão no manejo da anemia na insuficiência renal crônica , Journal of Health Informatics: v. 15 n. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese , Journal of Health Informatics: v. 15 n. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Daniel Mário de Lima, Ramon Alfredo Moreno, Marina de Sá Rebelo, José Eduardo Krieger, Marco Antonio Gutierrez, A COVID-19 surveillance platform to monitor risk of infection based on a machine learning model , Journal of Health Informatics: v. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira, Desafios e Dificuldades na Extração de Entidades Nomeadas de Notas Clínicas de Oncologia , Journal of Health Informatics: v. 15 n. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Carlos Eduardo Rodrigues Mello, Elisa Terumi Rubel Schneider, Lucas Emanuel Silva e Oliveira, Juliana Nabbouh do Nascimento, Yohan Bonescki Gumie, Isabela Fontes de Araújo, Claudia Moro, Avaliação de grandes modelos de linguagem na extração de informações clínica , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Juliana de Lima Lopes, Rita de Cassia Gengo e Silva, Jurema da Silva Herbas Palomo, Maria Margarita Castro Gonzalez, Fábio Antero Pires, Marco Antônio Gutierrez, Fátima Gil Ferreira, Sistematização do registro eletrônico de atendimento da parada cardiorrespiratória , Journal of Health Informatics: v. 4 n. 1 (2012)
Ramon Alfredo Moreno, Vinicius Lima, Isidro Lopes, Marco Antonio Gutierrez, MedCast - Sistema Colaborativo para Discussão de casos clínicos , Journal of Health Informatics: v. 3 n. 3 (2011)
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: v. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: v. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Jurema da Silva Herbas Palomo, Bruna Gabriela Bibancos Damas, Marco Antonio Gutierrez, Avaliação do registro eletrônico da prescrição e evolução de enfermagem , Journal of Health Informatics: v. 2 n. 1 (2010)

1 2 > >>

Desidentificação de narrativas clínicas com modelos generativos de código aberto

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Biografia do Autor

Elisa Terumi Rubel Schneider, FMUSP

Fernando Henrique Schneider, FMUSP

Yohan Bonescki Gumiel, FMUSP

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

Adriana Pagano, Universidade Federal de Minas Gerais

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

Marina de Sa Rebelo, FMUSP

Marco Antonio Gutierrez, FMUSP

Jose Eduardo Krieger, FMUSP

Claudia Moro, Pontifícia Universidade Católica do Paraná

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Artigos Semelhantes

Artigos mais lidos pelo mesmo(s) autor(es)

Idioma

Indexadores, Bases de Dados, Repositórios e Bibliotecas

Informações

Edição Atual