Desidentificação de narrativas clínicas com modelos generativos de código aberto

Elisa Terumi Rubel Schneider; Fernando Henrique Schneider; Yohan Bonescki Gumiel; Lilian Mie Mukai Cintho; Adriana Pagano; Emerson Cabrera Paraiso; Marina de Sa Rebelo; Marco Antonio Gutierrez; Jose Eduardo Krieger; Claudia Moro

doi:10.59681/2175-4411.v16.iEspecial.2024.1365

Desidentificación de narrativas clínicas con modelos generativos de código abierto

Autores/as

Elisa Terumi Rubel Schneider FMUSP
Fernando Henrique Schneider FMUSP
Yohan Bonescki Gumiel FMUSP
Lilian Mie Mukai Cintho Universidade Estadual de Ponta Grossa
Adriana Pagano Universidade Federal de Minas Gerais
Emerson Cabrera Paraiso Pontifícia Universidade Católica do Paraná
Marina de Sa Rebelo FMUSP
Marco Antonio Gutierrez FMUSP
Jose Eduardo Krieger FMUSP
Claudia Moro Pontifícia Universidade Católica do Paraná

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Palabras clave:

Inteligencia Artificial, Procesamiento de Lenguaje Natural, Registros Médicos

Resumen

Metas: La desidentificación de narrativas clínicas es esencial para proteger la privacidad de los pacientes y garantizar el cumplimiento de las normativas. Sin embargo, es una tarea compleja debido a los distintos tipos de entidades que requieren desidentificación y a la necesidad de procesar los textos localmente por razones de seguridad y privacidad. Métodos: Presentamos un estudio experimental sobre la desidentificación de narrativas clínicas utilizando modelos generativos de código abierto que pueden ejecutarse localmente. Resultados: Evaluamos la eficacia de cinco modelos de lenguaje, comparándolos con GPT-4, un modelo propietario. Los modelos fueron evaluados por la precisión, el recall y el F-score. Nuestros resultados preliminares indican que, aunque GPT-4 logró el mejor rendimiento, el modelo de código abierto Llama3 de Meta demostró robustez y eficacia en esta tarea. Conclusión: Este estudio contribuye al campo proporcionando información sobre el rendimiento de diferentes modelos en la anonimización de narrativas clínicas.

Biografía del autor/a

Elisa Terumi Rubel Schneider, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Fernando Henrique Schneider, FMUSP

BSc, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Yohan Bonescki Gumiel, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

PhD, Universidade Estadual de Ponta Grossa (UEPG), Ponta Grossa (PR), Brazil

Adriana Pagano, Universidade Federal de Minas Gerais

PhD, Universidade Federal de Minas Gerais (UFMG), Belo Horizonte (MG), Brazil

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Marina de Sa Rebelo, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Marco Antonio Gutierrez, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Jose Eduardo Krieger, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Claudia Moro, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Citas

Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023

Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015

Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011

Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161.

Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.

Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.

Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9.

Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.

Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94.

Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.

Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600.

Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110.

Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).

Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021.

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.

Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.

CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.

Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.

Descargas

PDF (Português (Brasil))

Publicado

2024-11-19

Cómo citar

Schneider, E. T. R., Schneider, F. H., Gumiel, Y. B., Cintho, L. M. M., Pagano, A., Paraiso, E. C., … Moro, C. (2024). Desidentificación de narrativas clínicas con modelos generativos de código abierto. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Descargar cita

Número

Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

Sección

CBIS 2024

Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.

Artículos similares

Thiago Delevidove de Lima Verde Brito, Paulo Roberto de Lima Lopes, Ana Estela Haddad, Luiz Ary Messina, Ivan Torres Pisa, Análise da Colaboração nos Grupos de Interesse Especial da Rede Universitária de Telemedicina (RUTE) , Journal of Health Informatics: Vol. 8 Núm. 1 (2016)
Kellen Cristine Aureliano Falcão, Felipe Azevedo Moretti, Ana Paula Valadares, Thiago Delevidove de Lima Verde Brito, Paulo Roberto de Lima Lopes, Ivan Torres Pisa, Inquérito sobre nível de conhecimento e participação em Normas Brasileiras de Informática em Saúde , Journal of Health Informatics: Vol. 8 Núm. 1 (2016)
Celianio da Silva Silva, Victor Travassos Sarinho, OpenSerum – Um Sistema Aberto de Monitoramento de Soro Hospitalar , Journal of Health Informatics: Vol. 8 Núm. 2 (2016)
Claudio Giulliano Alves da Costa, Heimar de Fatima Marin, Monitoramento e Avaliação da Saúde Digital: atualização dos métodos e modelos de maturidade , Journal of Health Informatics: Vol. 12 Núm. 4 (2020)
Gisele Torrente, Lowisa Consentini Garcia, Lie Tonaki, Gabrielle Logatto Ignácio de Souza, Lailla Melissa de Casto Pinheiro Barbosa, Thiago Queiroz de Souza, Ivany Rolim Vinhote Teixeira, Jander Menezes Cavalcanti, Geferson Oliveira da Silva, Atención y tecnología móvil prehospitalaria: un estudio de validación , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Valéria Farinazzo Martins, Lincoln de Assis Moura Junior, Uma metodologia para avaliação da usabilidade para sistema de transcrição automática de laudo em radiologia , Journal of Health Informatics: Vol. 3 Núm. 2 (2011)
Fabio Teixeira, Alex Jaccoud Falcão, Fernando Siqueira Sousa, Anderson Diniz Hummel, Thiago Martini Costa, Felipe Mancini, Luciano Vieira Araujo, Ivan Torres Pisa, Similarity-based scoring method for classification of Health Informatics content , Journal of Health Informatics: Vol. 3 Núm. 2 (2011)
Claudio Giulliano Alves da Costa, Heimar de Fatima Marin, Desenvolvimento de um método para avaliação de maturidade digital de instituições de saúde , Journal of Health Informatics: Vol. 13 Núm. 3 (2021)
Miliane Fantonelli, Ianka Cristina Celuppi, Fernanda Maia de Oliveira, Fernando Burigo, Eduardo Monguilhott Dalmarco, Raul Sidnei Wazlawick, Lei geral de proteção de dados e a interoperabilidade na saúde pública , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Gisele Helena Barboni Miranda, Paulo Mazzoncini de Azevedo Marques, Joaquim Cezar Felipe, Aplicação de conceitos da lógica nebulosa à classificação BI-RADS de nódulos de mama , Journal of Health Informatics: Vol. 1 Núm. 1 (2009)

<< < 4 5 6 7 8 9 10 11 12 > >>

También puede {advancedSearchLink} para este artículo.

Artículos más leídos del mismo autor/a

Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoyo para el manejo de la anemia en la insuficiencia renal , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Marco Antonio Gutierrez, Ciência de dados e Inteligência Artificial em Medicina , Journal of Health Informatics: Vol. 11 Núm. 4 (2019)
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Jurema da Silva Herbas Palomo, Bruna Gabriela Bibancos Damas, Marco Antonio Gutierrez, Avaliação do registro eletrônico da prescrição e evolução de enfermagem , Journal of Health Informatics: Vol. 2 Núm. 1 (2010)
Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira, Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Marco Antônio Gutierrez, Sistemas de Informação Hospitalares: progressos e avanços , Journal of Health Informatics: Vol. 3 Núm. 2 (2011)
Daniel Mário de Lima, Ramon Alfredo Moreno, Marina de Sá Rebelo, José Eduardo Krieger, Marco Antonio Gutierrez, A COVID-19 surveillance platform to monitor risk of infection based on a machine learning model , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Ramon Alfredo Moreno, Vinicius Lima, Isidro Lopes, Marco Antonio Gutierrez, MedCast - Sistema Colaborativo para Discussão de casos clínicos , Journal of Health Informatics: Vol. 3 Núm. 3 (2011)

1 2 > >>

Desidentificación de narrativas clínicas con modelos generativos de código abierto

Autores/as

DOI:

Palabras clave:

Resumen

Biografía del autor/a

Elisa Terumi Rubel Schneider, FMUSP

Fernando Henrique Schneider, FMUSP

Yohan Bonescki Gumiel, FMUSP

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

Adriana Pagano, Universidade Federal de Minas Gerais

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

Marina de Sa Rebelo, FMUSP

Marco Antonio Gutierrez, FMUSP

Jose Eduardo Krieger, FMUSP

Claudia Moro, Pontifícia Universidade Católica do Paraná

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos similares

Artículos más leídos del mismo autor/a

Idioma

Información

Indexadores, Bases de Dados, Repositórios e Bibliotecas