Desidentificação de narrativas clínicas com modelos generativos de código aberto

Autores

  • Elisa Terumi Rubel Schneider FMUSP
  • Fernando Henrique Schneider FMUSP
  • Yohan Bonescki Gumiel FMUSP
  • Lilian Mie Mukai Cintho Universidade Estadual de Ponta Grossa
  • Adriana Pagano Universidade Federal de Minas Gerais
  • Emerson Cabrera Paraiso Pontifícia Universidade Católica do Paraná
  • Marina de Sa Rebelo FMUSP
  • Marco Antonio Gutierrez FMUSP
  • Jose Eduardo Krieger FMUSP
  • Claudia Moro Pontifícia Universidade Católica do Paraná

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Palavras-chave:

Inteligência Artificial, Processamento de Linguagem Natural, Prontuários Médicos

Resumo

Objetivos: A desidentificação de narrativas clínicas é essencial para proteger a privacidade dos pacientes e garantir a conformidade com as regulamentações. No entanto, é uma tarefa complexa devido aos distintos tipos de entidades a serem desidentificadas e à necessidade de processar os textos localmente, por questões de segurança e privacidade. Métodos: Este artigo apresenta um estudo experimental sobre desidentificação de narrativas clínicas utilizando modelos generativos de código aberto, que podem ser executados localmente. Resultados:  Avaliamos a eficácia de cinco modelos de linguagem, comparando-os ao GPT-4, um modelo proprietário. Os modelos foram avaliados com base na precisão, recall e F-score. Nossos resultados preliminares indicam que, embora o GPT-4 tenha atingido o melhor desempenho, o modelo aberto Llama3, da Meta, demonstrou robustez e eficácia nesta tarefa. Conclusão: O estudo contribui para o campo ao fornecer insights sobre o desempenho de diferentes modelos na anonimização de narrativas clínicas.

Biografia do Autor

Elisa Terumi Rubel Schneider, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Fernando Henrique Schneider, FMUSP

BSc, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Yohan Bonescki Gumiel, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Lilian Mie Mukai Cintho, Universidade Estadual de Ponta Grossa

PhD, Universidade Estadual de Ponta Grossa (UEPG), Ponta Grossa (PR), Brazil

Adriana Pagano, Universidade Federal de Minas Gerais

PhD, Universidade Federal de Minas Gerais (UFMG), Belo Horizonte (MG), Brazil

Emerson Cabrera Paraiso, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Marina de Sa Rebelo, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Marco Antonio Gutierrez, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Jose Eduardo Krieger, FMUSP

PhD, Instituto do Coração - InCor/HC FMUSP, São Paulo (SP), Brazil

Claudia Moro, Pontifícia Universidade Católica do Paraná

PhD, Pontifícia Universidade Católica do Paraná (PUCPR), Curitiba (PR), Brazil

Referências

Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023

Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015

Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011

Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161.

Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.

Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.

Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9.

Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.

Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94.

Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.

Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600.

Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110.

Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).

Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021.

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.

Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.

Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.

CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.

Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.

Downloads

Publicado

19-11-2024

Como Citar

Schneider, E. T. R., Schneider, F. H., Gumiel, Y. B., Cintho, L. M. M., Pagano, A., Paraiso, E. C., … Moro, C. (2024). Desidentificação de narrativas clínicas com modelos generativos de código aberto. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365

Artigos Semelhantes

1 2 3 4 5 6 7 8 9 10 > >> 

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)

1 2 > >>