Avaliação de grandes modelos de linguagem na extração de informações clínica

Carlos Eduardo Rodrigues Mello; Elisa Terumi Rubel Schneider; Lucas Emanuel Silva e Oliveira; Juliana Nabbouh do Nascimento; Yohan Bonescki Gumie; Isabela Fontes de Araújo; Claudia Moro

doi:10.59681/2175-4411.v16.iEspecial.2024.1306

Avaliação de grandes modelos de linguagem na extração de informações clínica

Autores

Carlos Eduardo Rodrigues Mello Pontifica Universidade Católica do Paraná
Elisa Terumi Rubel Schneider Instituto do Coração
Lucas Emanuel Silva e Oliveira Comsentimento
Juliana Nabbouh do Nascimento PUC-PR
Yohan Bonescki Gumie HC FMUSP
Isabela Fontes de Araújo PUC-PR
Claudia Moro PUC-PR

DOI:

https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1306

Palavras-chave:

Síndrome, Sinais e Sintomas, Processamento de Linguagem Natural

Resumo

Objetivo: investigar a eficácia dos modelos de linguagem de grande escala (LLM) no reconhecimento de entidades nomeadas (NER) em notas clínicas em português. Método: Foi analisado o desempenho dos modelos de linguagem GPT-3.5, Gemini, Llama-3 e Sabiá-2, na realização de NER em 30 notas clínicas para identificação das entidades "Sinais ou Sintomas", "Doenças ou Síndromes" e "Dados Negados". A tarefa de NER foi avaliada pelos resultados da precisão, recall e F-score em cada um destes LLMs. Resultados: O modelo Llama-3 apresentou desempenho superior, especialmente em sensibilidade, alcançando um F-score de 0,538. O GPT-3.5 demonstrou desempenho equilibrado, enquanto o Gemini mostrou maior precisão, mas menor sensibilidade. Conclusão: Os resultados indicam que a escolha do modelo depende da ponderação adequada desses fatores em relação aos requisitos individuais de cada aplicação clínica.

Downloads

Não há dados estatísticos.

Biografia do Autor

Carlos Eduardo Rodrigues Mello, Pontifica Universidade Católica do Paraná

Graduando em Ciência da Computação, Pontifica Universidade Católica do Paraná (PUCPR), Curitiba, PR, Brasil

Elisa Terumi Rubel Schneider, Instituto do Coração

Doutora em Informática, Pesquisadora, Instituto do Coração (HC FMUSP), São Paulo - SP, Brasil

Lucas Emanuel Silva e Oliveira, Comsentimento

Doutor em Tecnologia em Saúde, Comsentimento, Curitiba, PR, Brasil

Juliana Nabbouh do Nascimento, PUC-PR

Graduanda de Engenharia Biomédica - PUCPR, Curitiba, PR, Brasil

Yohan Bonescki Gumie, HC FMUSP

Doutor em Tecnologia em Saúde, Pesquisador Instituto do Coração (HC FMUSP), São Paulo - SP, Brasil

Isabela Fontes de Araújo, PUC-PR

Mestranda PPGTS/PUCPR, Curitiba, PR, Brasil

Claudia Moro, PUC-PR

Doutora Engenharia Elétrica, Professora Titular - PPGTS/PUCPR, Curitiba, PR, Brasil

Referências

Yadav, P., Steinbach, M., Kumar, V., & Simon, G. (2018). Mining Electronic Health Records (EHRs). ACM Computing Surveys, 50(6), 1–40. doi:10.1145/3127881 DOI: https://doi.org/10.1145/3127881

Jensen, P. B., Jensen, L. J., & Brunak, S. (2012). Mining electronic health records: towards better research applications and clinical care. Nature Reviews Genetics, 13(6), 395–405. doi:10.1038/nrg3208 DOI: https://doi.org/10.1038/nrg3208

Assale, M., Dui, L. G., Cina, A., Seveso, A., & Cabitza, F. (2019). The Revival of the Notes Field: Leveraging the Unstructured Content in Electronic Health Records. Frontiers in Medicine, 6. doi:10.3389/fmed.2019.00066 DOI: https://doi.org/10.3389/fmed.2019.00066

Sun, Peng et al. "An overview of named entity recognition." 2018 International Conference on Asian Language Processing (IALP). IEEE, 2018. p. 273-278. DOI: https://doi.org/10.1109/IALP.2018.8629225

DA SILVA, Diego Pinheiro et al. "Exploring named entity recognition and relation extraction for ontology and medical records integration". Journal of Informatics in Medicine Unlocked vol. 43 (2023): 2352-9148. doi:10.1016/j.imu.2023.101381 DOI: https://doi.org/10.1016/j.imu.2023.101381

Liu, Zhengliang, et al. "Deid-gpt: Zero-shot medical text de-identification by gpt-4." arXiv preprint arXiv:2303.11032 (2023).

Schneider, Elisa Terumi Rubel et al. "BioBERTpt: a portuguese neural language model for clinical Named Entity Recognition." Proceedings of the 3rd Clinical Natural Language Processing Workshop. 19 November 2020, 2020. DOI: https://doi.org/10.18653/v1/2020.clinicalnlp-1.7

Schneider, E. T. R, et al., "CardioBERTpt: Transformer-based Models for Cardiology Language Representation in Portuguese," 2023 IEEE 36th International Symposium on Computer-Based Medical Systems (CBMS), L'Aquila, Italy, 2023, pp. 378-381, doi: 10.1109/CBMS58004.2023.00247. DOI: https://doi.org/10.1109/CBMS58004.2023.00247

Oliveira, L.E.S.e., Peters, A.C., da Silva, A.M.P. et al.. SemClinBr - a multi-institutional and multi-specialty semantically annotated corpus for Portuguese clinical NLP tasks. J Biomed Semantics. 2022;13(1):13. Published 2022 May 8. doi:10.1186/s13326-022-00269-1 DOI: https://doi.org/10.1186/s13326-022-00269-1

https://openai.com/index/chatgpt/ [Internet]. San Francisco: OpenAI; c2024 [cited 2024 May 31]. Available from: https://openai.com/index/chatgpt/.

Apresentando o Gemini: nosso maior e mais hábil modelo de IA. [Internet]. California: Google; c2024 [cited 2024 May 31]. Available from: https://blog.google/intl/pt-br/novidades/tecnologia/apresentando-o-gemini-nosso-maior-e-mais-habil-modelo-de-ia/#mensagem-sundar.

https://llama.meta.com/llama3/ [Internet]. California: Meta; c2024 [cited 2024 May 31]. Available from: https://llama.meta.com/llama3/

https://www.maritaca.ai/sabia-2 Internet]. São Paulo: Maritaca AI; c2024 [cited 2024 May 31]. Available from: https://www.maritaca.ai/sabia-2

GE, Yao et al. "Few-shot learning for medical text: A review of advances, trends, and opportunities". Journal of Biomedical Informatics vol. 144 (2023): 1532-0464. doi: 10.1016/ j.jbi.2023.104458 DOI: https://doi.org/10.1016/j.jbi.2023.104458

Bird, S., Klein, E., & Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. " O’Reilly Media, Inc."

Downloads

Publicado

19-11-2024

Como Citar

Mello, C. E. R., Schneider, E. T. R., Silva e Oliveira, L. E., do Nascimento, J. N., Gumie, Y. B., de Araújo, I. F., & Moro, C. (2024). Avaliação de grandes modelos de linguagem na extração de informações clínica. Journal of Health Informatics, 16(Especial). https://doi.org/10.59681/2175-4411.v16.iEspecial.2024.1306

Baixar Citação

Edição

v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde

Seção

CBIS 2024

Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

A submissão de um artigo ao Journal of Health Informatics é entendida como exclusiva e que não está sendo considerada para publicação em outra revista (Declaração de Exclusividade). A permissão dos autores para a publicação de seu artigo no J. Health Inform. implica na exclusiva autorização concedida aos editores para incluí-lo na revista. Ao submeter um artigo, ao autor será solicitada a permissão de um Termo de Transferência de Direitos de Publicação. Uma mensagem eletrônica será enviada ao autor correspondente confirmando o recibo do manuscrito e o aceite da Declaração de Direito de Publicação.

Artigos Semelhantes

Maria Eduarda Ferreira de Albuquerque, Larissa Genuíno Carneiro Martini, Sheila Milena Pessoa dos Santos, Erik Cristóvão Araújo de Melo, Inocêncio de Souza Ferraz Neto, Juliana Andreia de Souza Fernandes, Eisenhawer de Moura Fernandes, Desenvolvimento e avaliação de aplicativo móvel em infecções sexualmente transmissíveis , Journal of Health Informatics: v. 17 (2025)
Gilda Aparecida de Assis, João Guilherme Mendanha Alves, Ana Grasielle Dionísio Correa, Bruno da Silva Rodrigues, Jogos com tecnologia vestível como estímulo à saúde dos pés – avaliação de usabilidade , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
André Luís Fernandes dos Santos, Intersecções entre inteligência artificial (IA) e sepse: uma revisão integrativa , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Guilherme Bernieri, Julio Cesar Duarte, Identificação da doença de Alzheimer através da fala: uma abordagem multilíngue , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Eduardo Mobilon, Igor Marques de Araujo, Luiz Antonio Buschetto Macarini, Luiz Eduardo Pita Mercês Almeida, Rodrigo Bernardo, Luis Paulo Fernandes de Barros, Renata Bastianon, Ricardo Mendes Alves Pereira, Gravador de vídeo de imagens médicas com visão computacional e desfoque facial , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Raquel Maria Alexandre da Silva, Patrícia Pereira da Silva Picelli Sanches, Dulcineide Gonçalo de Oliveira, Thais de Oliveira Gozzo, Maria Beatriz Araújo Silva, Simone Maria Muniz da Silva Bezerra, Descrição da implantação do Serviço de Telediagnóstico em Eletrocardiograma em Alagoinha-Pernambuco , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Dayanne Caroline de Assis Silva, Amadeu Sá Campos Filho, Estela Maria Leite Meirelles Monteiro, Alcides da Silva Diniz, Mariana Boulitreau Siqueira Campos Barros, Tecnologia educacional sobre medidas de prevenção do bullying e cyberbullying , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Pedro Robles Dutenhefner, Turi Andrade Vasconcelos Rezende, Gisele Lobo Pappa, Gabriela Miana de Matos Paixão, Antônio Luiz Pinho Ribeiro, Wagner Meira Jr., Um transformer hierárquico para classificação e diagnóstico de eletrocardiograma , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Gabriel Menin, Renan Augusto Pereira, Flávia Magalhães Guedes, Ana Trindade Winck, API REST para reconhecimento óptico de caracteres em rótulos alimentares , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
Alda Maria Norbiato Torres, Raphael Pavani Manhães Bersot, Cristiano da S. Colombo, A extração de entidades nomeadas em relatos de casos clínicos , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde

<< < 5 6 7 8 9 10 11 > >>

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)

Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese , Journal of Health Informatics: v. 15 n. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoio à decisão no manejo da anemia na insuficiência renal crônica , Journal of Health Informatics: v. 15 n. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Elisa Terumi Rubel Schneider, Fernando Henrique Schneider, Yohan Bonescki Gumiel, Lilian Mie Mukai Cintho, Adriana Pagano, Emerson Cabrera Paraiso, Marina de Sa Rebelo, Marco Antonio Gutierrez, Jose Eduardo Krieger, Claudia Moro, Desidentificação de narrativas clínicas com modelos generativos de código aberto , Journal of Health Informatics: v. 16 n. Especial (2024): Congresso Brasileiro de Informática em Saúde
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: v. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: v. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020

Avaliação de grandes modelos de linguagem na extração de informações clínica

Autores

DOI:

Palavras-chave:

Resumo

Downloads

Biografia do Autor

Carlos Eduardo Rodrigues Mello, Pontifica Universidade Católica do Paraná

Elisa Terumi Rubel Schneider, Instituto do Coração

Lucas Emanuel Silva e Oliveira, Comsentimento

Juliana Nabbouh do Nascimento, PUC-PR

Yohan Bonescki Gumie, HC FMUSP

Isabela Fontes de Araújo, PUC-PR

Claudia Moro, PUC-PR

Referências

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Artigos Semelhantes

Artigos mais lidos pelo mesmo(s) autor(es)

Idioma

Mapa de Acessos

Indexadores, Bases de Dados, Repositórios e Bibliotecas

Informações

Edição Atual