Avaliação de grandes modelos de linguagem na extração de informações clínica

Carlos Eduardo Rodrigues Mello; Elisa Terumi Rubel Schneider; Lucas Emanuel Silva e Oliveira; Juliana Nabbouh do Nascimento; Yohan Bonescki Gumie; Isabela Fontes de Araújo; Claudia Moro

doi:10.59681/2175-4411.v16.iEspecial.2024.1306

Evaluación de modelos de lenguaje en la extracción de información clínica

Autores/as

Carlos Eduardo Rodrigues Mello Pontifica Universidade Católica do Paraná
Elisa Terumi Rubel Schneider Instituto do Coração
Lucas Emanuel Silva e Oliveira Comsentimento
Juliana Nabbouh do Nascimento PUC-PR
Yohan Bonescki Gumie HC FMUSP
Isabela Fontes de Araújo PUC-PR
Claudia Moro PUC-PR

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1306

Palabras clave:

Síndrome, Signos y Síntomas, Aprendizaje Automático, Procesamiento de Lenguaje Natural

Resumen

Objetivo: investigar la efectividad de los grandes modelos de lenguaje (LLMs) en el reconocimiento de entidades nombradas (NER) en notas clínicas en portugués brasileño. Método: Evaluamos la tarea de NER en 30 notas clínicas utilizando las métricas y métodos de precisión, recall y F-score. En el experimento realizado, comparamos el rendimiento de los modelos GPT-3.5, Gemini, Llama-3 y Sabiá-2 en la extracción de las entidades "Signos o Síntomas", "Enfermedades o Síndromes" y "Datos Negados". Resultados: Encontramos que el modelo Llama-3 mostró un rendimiento superior, especialmente en sensibilidad, logrando un F-score de 0.538. GPT-3.5 demostró un rendimiento equilibrado, mientras que Gemini mostró mayor precisión, pero menor sensibilidad. Conclusión: Nuestros resultados indican que la elección del modelo depende de la ponderación adecuada de estos factores con respecto a los requisitos individuales de cada aplicación clínica.

Biografía del autor/a

Carlos Eduardo Rodrigues Mello, Pontifica Universidade Católica do Paraná

Graduando em Ciência da Computação, Pontifica Universidade Católica do Paraná (PUCPR), Curitiba, PR, Brasil

Elisa Terumi Rubel Schneider, Instituto do Coração

Doutora em Informática, Pesquisadora, Instituto do Coração (HC FMUSP), São Paulo - SP, Brasil

Lucas Emanuel Silva e Oliveira, Comsentimento

Doutor em Tecnologia em Saúde, Comsentimento, Curitiba, PR, Brasil

Juliana Nabbouh do Nascimento, PUC-PR

Graduanda de Engenharia Biomédica - PUCPR, Curitiba, PR, Brasil

Yohan Bonescki Gumie, HC FMUSP

Doutor em Tecnologia em Saúde, Pesquisador Instituto do Coração (HC FMUSP), São Paulo - SP, Brasil

Isabela Fontes de Araújo, PUC-PR

Mestranda PPGTS/PUCPR, Curitiba, PR, Brasil

Claudia Moro, PUC-PR

Doutora Engenharia Elétrica, Professora Titular - PPGTS/PUCPR, Curitiba, PR, Brasil

Citas

Yadav, P., Steinbach, M., Kumar, V., & Simon, G. (2018). Mining Electronic Health Records (EHRs). ACM Computing Surveys, 50(6), 1–40. doi:10.1145/3127881

Jensen, P. B., Jensen, L. J., & Brunak, S. (2012). Mining electronic health records: towards better research applications and clinical care. Nature Reviews Genetics, 13(6), 395–405. doi:10.1038/nrg3208

Assale, M., Dui, L. G., Cina, A., Seveso, A., & Cabitza, F. (2019). The Revival of the Notes Field: Leveraging the Unstructured Content in Electronic Health Records. Frontiers in Medicine, 6. doi:10.3389/fmed.2019.00066

Sun, Peng et al. "An overview of named entity recognition." 2018 International Conference on Asian Language Processing (IALP). IEEE, 2018. p. 273-278.

DA SILVA, Diego Pinheiro et al. "Exploring named entity recognition and relation extraction for ontology and medical records integration". Journal of Informatics in Medicine Unlocked vol. 43 (2023): 2352-9148. doi:10.1016/j.imu.2023.101381

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

Schneider, Elisa Terumi Rubel et al. "BioBERTpt: a portuguese neural language model for clinical Named Entity Recognition." Proceedings of the 3rd Clinical Natural Language Processing Workshop. 19 November 2020, 2020.

Schneider, E. T. R, et al., "CardioBERTpt: Transformer-based Models for Cardiology Language Representation in Portuguese," 2023 IEEE 36th International Symposium on Computer-Based Medical Systems (CBMS), L'Aquila, Italy, 2023, pp. 378-381, doi: 10.1109/CBMS58004.2023.00247.

Oliveira, L.E.S.e., Peters, A.C., da Silva, A.M.P. et al.. SemClinBr - a multi-institutional and multi-specialty semantically annotated corpus for Portuguese clinical NLP tasks. J Biomed Semantics. 2022;13(1):13. Published 2022 May 8. doi:10.1186/s13326-022-00269-1

https://openai.com/index/chatgpt/ [Internet]. San Francisco: OpenAI; c2024 [cited 2024 May 31]. Available from: https://openai.com/index/chatgpt/.

Apresentando o Gemini: nosso maior e mais hábil modelo de IA. [Internet]. California: Google; c2024 [cited 2024 May 31]. Available from: https://blog.google/intl/pt-br/novidades/tecnologia/apresentando-o-gemini-nosso-maior-e-mais-habil-modelo-de-ia/#mensagem-sundar.

https://llama.meta.com/llama3/ [Internet]. California: Meta; c2024 [cited 2024 May 31]. Available from: https://llama.meta.com/llama3/

https://www.maritaca.ai/sabia-2 Internet]. São Paulo: Maritaca AI; c2024 [cited 2024 May 31]. Available from: https://www.maritaca.ai/sabia-2

GE, Yao et al. "Few-shot learning for medical text: A review of advances, trends, and opportunities". Journal of Biomedical Informatics vol. 144 (2023): 1532-0464. doi: 10.1016/ j.jbi.2023.104458

Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. " O’Reilly Media, Inc."

Descargas

PDF (Português (Brasil))

Publicado

2024-11-19

Cómo citar

Mello, C. E. R., Schneider, E. T. R., Silva e Oliveira, L. E., do Nascimento, J. N., Gumie, Y. B., de Araújo, I. F., & Moro, C. (2024). Evaluación de modelos de lenguaje en la extracción de información clínica. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1306

Descargar cita

Número

Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

Sección

CBIS 2024

Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.

Artículos similares

Gustavo de Agostin, Ricardo Rampinelli Formigoni, Larissa Mayumi Yokoi, Erik Paul Winnikow, Priscyla Waleska Simões, Redes Bayesianas e Regressão Logística em pacientes submetidas a core biópsia , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Antonio Valerio Netto, Alessandra Gallo Petraroli Tateyama, Avaliação de tecnologia de telemonitoramento e biotelemetria para o cuidado híbrido para o idoso com condição crônica , Journal of Health Informatics: Vol. 10 Núm. 4 (2018)
Hugo Bulegon, Claudia Maria Cabral Moro, Mineração de texto e o processamento de linguagem natural em sumários de alta hospitalar , Journal of Health Informatics: Vol. 2 Núm. 2 (2010)
Gisele Helena Barboni Miranda, Paulo Mazzoncini de Azevedo Marques, Joaquim Cezar Felipe, Aplicação de conceitos da lógica nebulosa à classificação BI-RADS de nódulos de mama , Journal of Health Informatics: Vol. 1 Núm. 1 (2009)
Luciana Schleder Gonçalves, Maria Luiza de Medeiros Amaro, Registros multiprofesionales antes e despues de la implantación de un sistema informatizado sobre la sepsis , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Jady Sobjak de Mello Godoi, Luciana Schleder Gonçalves, Aida Maris Peres, Lillian Daisy Gonçalves Wolff, O uso do prontuário eletrônico por enfermeiros em Unidades Básicas de Saúde brasileiras , Journal of Health Informatics: Vol. 4 Núm. 1 (2012)
Juliana de Lima Lopes, Rita de Cassia Gengo e Silva, Jurema da Silva Herbas Palomo, Maria Margarita Castro Gonzalez, Fábio Antero Pires, Marco Antônio Gutierrez, Fátima Gil Ferreira, Sistematização do registro eletrônico de atendimento da parada cardiorrespiratória , Journal of Health Informatics: Vol. 4 Núm. 1 (2012)
Priscyla Waleska Targino de Azevedo Simões, Felipe Ribeiro Sampaio, Jose Márcio Cassettari Júnior, Samuel Cesconetto, Maria Inês da Rosa, Mineração de dados aplicada ao conhecimento em uma população universitária , Journal of Health Informatics: Vol. 5 Núm. 4 (2013)
Lilian Mie Cintho, Roni Rodrigues Machado, Claudia Maria Cabral Moro, Métodos para Avaliação de Sistema de Informação em Saúde , Journal of Health Informatics: Vol. 8 Núm. 2 (2016)
Antonio Henrique Silva dos Santos, Claudinalle Farias Queiroz de Souza, Starch Melo de Souza, Jonathann Jefferson Jeronimo da Silva, Maria de Fátima Valter, Letícia Moura Mulatinho, UTI Escore - protótipo de aplicativo para gestão da assistência de enfermagem , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020

<< < 4 5 6 7 8 9 10 11 > >>

También puede {advancedSearchLink} para este artículo.

Artículos más leídos del mismo autor/a

Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoyo para el manejo de la anemia en la insuficiencia renal , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Elisa Terumi Rubel Schneider, Fernando Henrique Schneider, Yohan Bonescki Gumiel, Lilian Mie Mukai Cintho, Adriana Pagano, Emerson Cabrera Paraiso, Marina de Sa Rebelo, Marco Antonio Gutierrez, Jose Eduardo Krieger, Claudia Moro, Desidentificación de narrativas clínicas con modelos generativos de código abierto , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde