Desidentificação de narrativas clínicas com modelos generativos de código aberto

Elisa Terumi Rubel Schneider; Fernando Henrique Schneider; Yohan Bonescki Gumiel; Lilian Mie Mukai Cintho; Adriana Pagano; Emerson Cabrera Paraiso; Marina de Sa Rebelo; Marco Antonio Gutierrez; Jose Eduardo Krieger; Claudia Moro

doi:10.59681/2175-4411.v16.iEspecial.2024.1365

Desidentificación de narrativas clínicas con modelos generativos de código abierto

Autores/as

Elisa Terumi Rubel Schneider FMUSP
Fernando Henrique Schneider FMUSP
Yohan Bonescki Gumiel FMUSP
Lilian Mie Mukai Cintho Universidade Estadual de Ponta Grossa
Adriana Pagano Universidade Federal de Minas Gerais
Emerson Cabrera Paraiso Pontifícia Universidade Católica do Paraná
Marina de Sa Rebelo FMUSP
Marco Antonio Gutierrez FMUSP
Jose Eduardo Krieger FMUSP
Claudia Moro Pontifícia Universidade Católica do Paraná

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Palabras clave:

Inteligencia Artificial, Procesamiento de Lenguaje Natural, Registros Médicos

Resumen

Metas: La desidentificación de narrativas clínicas es esencial para proteger la privacidad de los pacientes y garantizar el cumplimiento de las normativas. Sin embargo, es una tarea compleja debido a los distintos tipos de entidades que requieren desidentificación y a la necesidad de procesar los textos localmente por razones de seguridad y privacidad. Métodos: Presentamos un estudio experimental sobre la desidentificación de narrativas clínicas utilizando modelos generativos de código abierto que pueden ejecutarse localmente. Resultados: Evaluamos la eficacia de cinco modelos de lenguaje, comparándolos con GPT-4, un modelo propietario. Los modelos fueron evaluados por la precisión, el recall y el F-score. Nuestros resultados preliminares indican que, aunque GPT-4 logró el mejor rendimiento, el modelo de código abierto Llama3 de Meta demostró robustez y eficacia en esta tarea. Conclusión: Este estudio contribuye al campo proporcionando información sobre el rendimiento de diferentes modelos en la anonimización de narrativas clínicas.

Biografía del autor/a

Elisa Terumi Rubel Schneider, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Fernando Henrique Schneider, FMUSP

BSc, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Yohan Bonescki Gumiel, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

PhD, Universidade Estadual de Ponta Grossa (UEPG), Ponta Grossa (PR), Brazil

Adriana Pagano, Universidade Federal de Minas Gerais

PhD, Universidade Federal de Minas Gerais (UFMG), Belo Horizonte (MG), Brazil

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Marina de Sa Rebelo, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Marco Antonio Gutierrez, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Jose Eduardo Krieger, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Claudia Moro, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Citas

Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023

Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015

Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011

Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161.

Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.

Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.

Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9.

Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.

Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94.

Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.

Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600.

Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110.

Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).

Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021.

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.

Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.

CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.

Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.

Descargas

PDF (Português (Brasil))

Publicado

2024-11-19

Cómo citar

Schneider, E. T. R., Schneider, F. H., Gumiel, Y. B., Cintho, L. M. M., Pagano, A., Paraiso, E. C., … Moro, C. (2024). Desidentificación de narrativas clínicas con modelos generativos de código abierto. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Descargar cita

Número

Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

Sección

CBIS 2024

Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.

Artículos similares

William Henrique Pereira Costa, Luiz Eduardo Borges da Silva, Clasificación Múltiple de Señales da Electroencefalograma, para Imaginación Motora, Utilizando Procesamiento Estadístico de Señales y Aprendizaje Profundo , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Talita Santos Pinheiro, Erika Yahata, Pablo Deoclecia dos Santos, Fellipe Soares de Oliveira, André Kazuo Takahata, Ricardo Suyama, Harki Tanaka, Tiago Ribeiro Oliveira, Ana Paula Romani, Priscyla Waleska Simoes, Machine Learning e Análise Multivariada aplicados à Sobrevida do Câncer Mama , Journal of Health Informatics: Vol. 14 (2022): Número Especial - XVIII Congresso Brasileiro de Informática em Saúde - CBIS 2021
Gabriel Constantin da Silva, Silvio César Cazella, Large language model para generar registros médicos electrónicos sintéticos , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Marcelle Maria Portal, Vagner dos Santos, Carolina Sturm Trindade, Denise Conceição Mesquita Dantas, Maristela Ferigolo, Helena Maria Tannhauser Barros, Informações de saúde na internet: protocolo para avaliação de sites sobre drogas de abuso , Journal of Health Informatics: Vol. 1 Núm. 1 (2009)
Nuno Pinto, Concepção, desenvolvimento e aplicação do sistema de registros clínicos de enfermagem “PRINCE” , Journal of Health Informatics: Vol. 3 Núm. 4 (2011)
Ingrid Fernandes Medeiros, Fabiana Gomes Batista, Alef Emannuel Dias, Juliana Dantas Camargo, Itamir Barroca Filho, Ricardo Ney Cobucci, Estudio de usabilidad de una aplicación móvil para el diagnóstico de endometriosis , Journal of Health Informatics: Vol. 15 Núm. 1 (2023)
Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira, Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Vitoria Martins Rios, Matheus Figueiredo Nunes de Carvalho, Rafaell Dutra Ramos, Thiago Medeiros Carvalho, Cristiane Oliveira Faria, Predicción de resultados en pacientes hospitalizados por COVID-19 , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Lucas Andrada Carrazzoni Goes, João Vitor de Amorim Silva, Amadeu Sá de Campos Filho, Evaluación de un asistente virtual inteligente (chatbot) en reanimación cardiopulmonar , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Nadyelle Elias Santos Alencar, Letícia Bastos Conrado, Paulo Henrique Leal de Sousa, Amanda Luiza Marinho Feitosa, Kelen Gomes Ribeiro, Cláudia Alexandra da Cunha Pernencar, Ivana Cristina de Holanda Cunha Barreto, Salud digital y Covid-19 en los países BRICS: análisis bibliométrico , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

<< < 1 2 3 4 5 6 7 8 9 10 > >>

También puede {advancedSearchLink} para este artículo.

Artículos más leídos del mismo autor/a

Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoyo para el manejo de la anemia en la insuficiencia renal , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Marco Antonio Gutierrez, Ciência de dados e Inteligência Artificial em Medicina , Journal of Health Informatics: Vol. 11 Núm. 4 (2019)
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Jurema da Silva Herbas Palomo, Bruna Gabriela Bibancos Damas, Marco Antonio Gutierrez, Avaliação do registro eletrônico da prescrição e evolução de enfermagem , Journal of Health Informatics: Vol. 2 Núm. 1 (2010)
Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira, Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Marco Antônio Gutierrez, Sistemas de Informação Hospitalares: progressos e avanços , Journal of Health Informatics: Vol. 3 Núm. 2 (2011)
Daniel Mário de Lima, Ramon Alfredo Moreno, Marina de Sá Rebelo, José Eduardo Krieger, Marco Antonio Gutierrez, A COVID-19 surveillance platform to monitor risk of infection based on a machine learning model , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Ramon Alfredo Moreno, Vinicius Lima, Isidro Lopes, Marco Antonio Gutierrez, MedCast - Sistema Colaborativo para Discussão de casos clínicos , Journal of Health Informatics: Vol. 3 Núm. 3 (2011)

1 2 > >>

Desidentificación de narrativas clínicas con modelos generativos de código abierto

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Elisa Terumi Rubel Schneider, FMUSP

Fernando Henrique Schneider, FMUSP

Yohan Bonescki Gumiel, FMUSP

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

Adriana Pagano, Universidade Federal de Minas Gerais

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

Marina de Sa Rebelo, FMUSP

Marco Antonio Gutierrez, FMUSP

Jose Eduardo Krieger, FMUSP

Claudia Moro, Pontifícia Universidade Católica do Paraná

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos similares

Artículos más leídos del mismo autor/a

Idioma

Información

Indexadores, Bases de Dados, Repositórios e Bibliotecas