Desidentificação de narrativas clínicas com modelos generativos de código aberto
DOI:
https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365Palavras-chave:
Inteligência Artificial, Processamento de Linguagem Natural, Prontuários MédicosResumo
Objetivos: A desidentificação de narrativas clínicas é essencial para proteger a privacidade dos pacientes e garantir a conformidade com as regulamentações. No entanto, é uma tarefa complexa devido aos distintos tipos de entidades a serem desidentificadas e à necessidade de processar os textos localmente, por questões de segurança e privacidade. Métodos: Este artigo apresenta um estudo experimental sobre desidentificação de narrativas clínicas utilizando modelos generativos de código aberto, que podem ser executados localmente. Resultados: Avaliamos a eficácia de cinco modelos de linguagem, comparando-os ao GPT-4, um modelo proprietário. Os modelos foram avaliados com base na precisão, recall e F-score. Nossos resultados preliminares indicam que, embora o GPT-4 tenha atingido o melhor desempenho, o modelo aberto Llama3, da Meta, demonstrou robustez e eficácia nesta tarefa. Conclusão: O estudo contribui para o campo ao fornecer insights sobre o desempenho de diferentes modelos na anonimização de narrativas clínicas.
Referências
Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023 DOI: https://doi.org/10.1016/j.jbi.2017.05.023
Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015 DOI: https://doi.org/10.1016/j.jbi.2015.06.015
Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011 DOI: https://doi.org/10.1016/j.jbi.2014.01.011
Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161. DOI: https://doi.org/10.1016/j.jbi.2013.12.014
Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.
Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.
Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9. DOI: https://doi.org/10.1186/s12911-020-1026-2
Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.
Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94. DOI: https://doi.org/10.1136/amiajnl-2012-001012
Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.
Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600. DOI: https://doi.org/10.1038/s41598-020-75544-1
Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110. DOI: https://doi.org/10.1109/ACCESS.2021.3054479
Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).
Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021. DOI: https://doi.org/10.1007/978-3-030-91699-2_3
Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).
AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.
Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.
CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.
Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.
Downloads
Publicado
Como Citar
Edição
Secção
Licença
Este trabalho encontra-se publicado com a Licença Internacional Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0.
A submissão de um artigo ao Journal of Health Informatics é entendida como exclusiva e que não está sendo considerada para publicação em outra revista. A permissão dos autores para a publicação de seu artigo no J. Health Inform. implica na exclusiva autorização concedida aos editores para incluí-lo na revista. Ao submeter um artigo, ao autor será solicitada a permissão eletrônica de um Termo de Transferência de Direitos Autorais. Uma mensagem eletrônica será enviada ao autor correspondente confirmando o recibo do manuscrito e o aceite da Declaração de Direito Autoral.