Desidentificación de narrativas clínicas con modelos generativos de código abierto
DOI:
https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1365Palabras clave:
Inteligencia Artificial, Procesamiento de Lenguaje Natural, Registros MédicosResumen
Metas: La desidentificación de narrativas clínicas es esencial para proteger la privacidad de los pacientes y garantizar el cumplimiento de las normativas. Sin embargo, es una tarea compleja debido a los distintos tipos de entidades que requieren desidentificación y a la necesidad de procesar los textos localmente por razones de seguridad y privacidad. Métodos: Presentamos un estudio experimental sobre la desidentificación de narrativas clínicas utilizando modelos generativos de código abierto que pueden ejecutarse localmente. Resultados: Evaluamos la eficacia de cinco modelos de lenguaje, comparándolos con GPT-4, un modelo propietario. Los modelos fueron evaluados por la precisión, el recall y el F-score. Nuestros resultados preliminares indican que, aunque GPT-4 logró el mejor rendimiento, el modelo de código abierto Llama3 de Meta demostró robustez y eficacia en esta tarea. Conclusión: Este estudio contribuye al campo proporcionando información sobre el rendimiento de diferentes modelos en la anonimización de narrativas clínicas.
Citas
Liu, Zengjian et al. “De-identification of clinical notes via recurrent neural network and conditional random field.” Journal of biomedical informatics vol. 75S (2017): S34-S42. doi:10.1016/j.jbi.2017.05.023
Yang, Hui, and Jonathan M Garibaldi. “Automatic detection of protected health information from clinic narratives.” Journal of biomedical informatics vol. 58 Suppl,Suppl (2015): S30-S38. doi:10.1016/j.jbi.2015.06.015
Meystre, Stéphane M et al. “Text de-identification for privacy protection: a study of its impact on clinical text information content.” Journal of biomedical informatics vol. 50 (2014): 142-50. doi:10.1016/j.jbi.2014.01.011
Grouin, Cyril, and Aurélie Névéol. "De-identification of clinical notes in French: towards a protocol for reference corpus development." Journal of biomedical informatics 50 (2014): 151-161.
Act, Accountability. "Health insurance portability and accountability act of 1996." Public law 104 (1996): 191.
Yadav, Shweta, et al. "Deep learning architecture for patient data de-identification in clinical records." Proceedings of the clinical natural language processing workshop (ClinicalNLP). 2016.
Hartman, Tzvika, et al. "Customization scenarios for de-identification of clinical notes." BMC medical informatics and decision making 20 (2020): 1-9.
Prado, Carolina Braun, et al. "De-Identification Challenges in Real-World Portuguese Clinical Texts." Latin American Conference on Biomedical Engineering. Cham: Springer Nature Switzerland, 2022.
Deleger, Louise, et al. "Large-scale evaluation of automated clinical note de-identification and its impact on information extraction." Journal of the American Medical Informatics Association 20.1 (2013): 84-94.
Obeid, Jihad S., et al. "Impact of de-identification on clinical text classification using traditional and deep learning classifiers." Studies in health technology and informatics 264 (2019): 283.
Ahmed, Tanbir, Md Momin Al Aziz, and Noman Mohammed. "De-identification of electronic health record using neural network." Scientific reports 10.1 (2020): 18600.
Catelli, Rosario, et al. "A novel covid-19 data set and an effective deep learning approach for the de-identification of italian medical records." Ieee Access 9 (2021): 19097-19110.
Khin, Kaung, Philipp Burckhardt, and Rema Padman. "A deep learning architecture for de-identification of patient notes: Implementation and evaluation." arXiv preprint arXiv:1810.01570 (2018).
Santos, Joaquim, et al. "De-identification of clinical notes using contextualized language models and a token classifier." Brazilian Conference on Intelligent Systems. Cham: Springer International Publishing, 2021.
Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).
AI@Meta, 2024. Llama 3 model card. URL: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
Mistral AI Team, 2024. Model Card for Mixtral-8x7B. URL: https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1.
Hong, J., Lee, N., Thorne, J., 2024. Orpo: Monolithic preference optimization without reference model. arXiv:2403.07691.
CohereForAI, 2024. Model Card for C4AI Command R+. URL: https://huggingface.co/CohereForAI/c4ai-command-r-plus.
Google, 2024. Gemma Model Card. URL: https://huggingface.co/google/gemma-1.1-7b-it.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.