Challenges and Issues on Extracting Named Entities from Oncology Clinical Notes

Luiz Henrique Pereira Niero; João Vitor Andrioli de Souza; Luciana Martins Gomes da Silva; Yohan Bonescki Gumiel; Nícolas Henrique Borges; Gustavo Henrique Munhoz Piotto; Gustavo Giavarini; Lucas Emanuel Silva e Oliveira

doi:10.59681/2175-4411.v15.iEspecial.2023.1097

Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología

Autores/as

Luiz Henrique Pereira Niero Comsentimento NLP Lab
João Vitor Andrioli de Souza Comsentimento NLP Lab
Luciana Martins Gomes da Silva Comsentimento NLP Lab
Yohan Bonescki Gumiel Faculdade de Medicina da Universidade de São Paulo
Nícolas Henrique Borges Comsentimento NLP Lab
Gustavo Henrique Munhoz Piotto Comsentimento NLP Lab
Gustavo Giavarini Comsentimento NLP Lab
Lucas Emanuel Silva e Oliveira Comsentimento NLP Lab

DOI:

https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1097

Palabras clave:

Procesamiento de Lenguaje Natural, Registros Electrónicos de Salud, Oncología Médica

Resumen

Este artículo tiene como objetivo describir el proceso de anotación de un corpus multiinstitucional de textos clínicos en la especialidad de oncología y entrenar modelos para el Reconocimiento de Entidades Nombradas. Usamos el corpus anotado para entrenar modelos con diferentes cantidades de datos y comparamos el resultado del modelo con la cantidad de datos utilizados en el entrenamiento. El entrenamiento de los modelos se hizo a partir de la puesta a punto de las Representaciones de Codificadores Bidireccionales de Transformadores adaptados al dominio médico-biológico de la lengua portuguesa (BioBERTpt). Para comparar el comportamiento del modelo con el aumento de los datos de entrenamiento, los modelos se entrenaron con cantidades incrementales de datos. Como resultado, encontramos que los modelos entrenados con conjuntos de datos más pequeños pero completamente revisados funcionaron mejor que los modelos entrenados con conjuntos de datos más grandes con poca revisión.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Luiz Henrique Pereira Niero, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil. Paulista State University “Júlio de Mesquita Filho” - UNESP, Rio Claro (SP), Brasil.

João Vitor Andrioli de Souza, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil. Pontifical Catholic University of Paraná - PUCPR, Curitiba (PR), Brasil.

Luciana Martins Gomes da Silva, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil.

Yohan Bonescki Gumiel, Faculdade de Medicina da Universidade de São Paulo

Biomedical Informatics Laboratory - Instituto do Coração - HC FMUSP.

Nícolas Henrique Borges, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil.

Gustavo Henrique Munhoz Piotto, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil. DASA oncology, Brasil.

Gustavo Giavarini, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil.

Lucas Emanuel Silva e Oliveira, Comsentimento NLP Lab

Comsentimento NLP Lab, São Paulo, Brasil. Biomedical Informatics Laboratory - Instituto do Coração - HC FMUSP.

Citas

Jensen, PB; Jensen, LJ, Brunak, S. Mining electronic health records: towards better research applications and clinical care. Nature Reviews Genetics 2012;13(6): 395-405.

Jian F, Jiang Y, Zhi H, Dong Y, Li H, Ma S, et al. Artificial intelligence in healthcare: Past, present and future, Stroke Vasc. Neurol. 2 2017;230–243.

Sheikhalishahi S, Miotto R, Dudley JT, Lavelli A, Rinaldi F, Osmani V. Natural language processing of clinical notes on chronic diseases: systematic review. JMIR medical informatics 2019;21:1-18.

World Health Organization. Cancer. Available from: https://www.who.int/news-room/fact-sheets/detail/cancer

Oliveira LES e, Peters AC, da Silva AMP, Gebeluca CP, Gumiel YB, Cintho LMM, et al. SemClinBr - a multi-institutional and multi-specialty semantically annotated corpus for Portuguese clinical NLP tasks. Journal of Biomedical Semantics. 2022 May 8;13(1).

Schneider ETR, de Souza JVA, Knafou J, Oliveira LES e, Copara J, Gumiel YB, et al. BioBERTpt - A Portuguese Neural Language Model for Clinical Named Entity Recognition. Proceedings of the 3rd Clinical Natural Language Processing Workshop. 2020;

de Souza JVA, Gumiel YB, Silva EL, Moro CM. Named entity recognition for clinical portuguese corpus with conditional random fields and semantic group.Anais do XIX Simpósio Brasileiro de Computação Aplicada à Saúde; 2019, 318-323.

dos Santos HDP, Silva AP, Maciel MCO, Burin HMV, Urbanetto JS, Vieira R. Fall Detection in EHR using Word Embeddings and Deep Learning. Proceedings of the 19th International Conference on Bioinformatics and Bioengineering (BIBE); 2019, 265-268.

Lopes F, Teixeira C, Oliveira HG. Contributions to Clinical Named Entity Recognition in Portuguese. Proceedings of the 18th BioNLP Workshop and Shared Task; 2019, 223–233.

Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, et al. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians [Internet]. 2021 Feb 4;71(3):209–49. Available from: https://acsjournals.onlinelibrary.wiley.com/doi/10.3322/caac.21660

Lample G, Ballesteros M, Subramanian S, Kawakami K, Dyer C. Neural Architectures for Named Entity Recognition [Internet]. arXiv.org. 2016. Available from: https://arxiv.org/abs/1603.01360

Roberts A, Gaizauskas R, Hepple M, Davis N, Demetriou G, Guo Y, et al. The CLEF corpus: semantic annotation of clinical text. AMIA Annual Symposium Proceedings AMIA Symposium [Internet]. 2007 [cited 2022 Aug 27];2007:625–9. Available from: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2655900/

Kang T, Zhang S, Tang Y, Hruby GW, Rusanov A, Elhadad N, et al. EliIE: An open-source information extraction system for clinical trial eligibility criteria. Journal of the American Medical Informatics Association [Internet]. 2017 Apr 1 [cited 2021 Dec 1];24(6):1062–71. Available from: https://academic.oup.com/jamia/article/24/6/1062/3098256?login=true

Richard LJ, Koch GG. The Measurement of Observer Agreement for Categorical Data. Biometrics [Internet]. 1977;33(1):159–74. Available from: https://www.jstor.org/stable/2529310?seq=7#metadata_info_tab_contents

Stubbs A. MAE and MAI: Lightweight Annotation and Adjudication Tools [Internet]. Association for Computational Linguistics; 2011 [cited 2022 Aug 29] p. 23–4. Available from: https://aclanthology.org/W11-0416.pdf

de Oliveira LFA, Oliveira LES, Gumiel YB, Carvalho DR, Moro CMC. Defining a state-of-the-art POS-tagging environment for Brazilian Portuguese clinical texts. Research on Biomedical Engineering. 2020 Jun 19;36(3):267–76.

Devlin J, Chang M-W, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Internet]. arXiv.org. 2018. Available from: https://arxiv.org/abs/1810.04805

CoNLL-2003 standard https://aclanthology.org/W03-0419.pdf

Souza JVA, Schneider ETR, Oliveira LES, Gumiel YB, Paraiso EC, Teodoro D, Barra CMCM. A Multilabel approach to Portuguese clinical named entity recognition. Journal of Health Informatics. 2020 Dez; (special number SBIS): 366-72.

Simpletransformers library. Available from: https://simpletransformers.ai/

Google Collab. Available from: https://colab.research.google.com/

Issifu AM, Ganiz MC. A simple data augmentation method to improve the performance of named entity recognition models in medical domain. 2021. 6th International Conference on Computer Science and Engineering (UBMK): 763-768.

Descargas

PDF (Português (Brasil))

Publicado

2023-07-20

Cómo citar

Niero, L. H. P., Souza, J. V. A. de, Silva, L. M. G. da, Gumiel, Y. B., Borges, N. H., Piotto, G. H. M., … Oliveira, L. E. S. e. (2023). Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología. Journal of Health Informatics, 15(Especial). https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1097

Descargar cita

Número

Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde

Sección

CBIS 2022

Licencia

Derechos de autor 2023 Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.

Artículos similares

Rita de Cássia Almeida Sales, Isaura Romero Peixoto, Shirley da Silva Jacinto de Oliveira Cruz, Wellington Pinheiro dos Santos, Optimización de la auditoría interna de los registros quirúrgicos: un enfoque basado en IA , Journal of Health Informatics: Vol. 17 (2025)
Rildo Pinto da Silva, Antonio Pazin-Filho, Anonimización de textos médicos con procesamiento del lenguaje natural , Journal of Health Informatics: Vol. 17 (2025)
Elaine Barbosa de Figueiredo, Ferrucio de Franco Rosa, Ricardo Antônio Zanetti, Mariangela Dametto, Rodrigo Bonacin, Semántica en la historia clínica electrónica para oncología pediátrica: una revisión integradora , Journal of Health Informatics: Vol. 15 Núm. 2 (2023)
Giovanna Alves Gadelha, Renan Augusto Pereira, Flávia Magalhães Guedes, Ana Trindade Winck, Procesamiento del Lenguaje Natural en la Identificación de Alérgenos en Etiquetas de Alimentos: Una Aplicación en el Contexto Brasileño , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Ítalo Santos de Oliveira, Rodrigo Rafael Villarreal Goulart, Detección de discurso de odio para apoyo a la salud mental , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Leidiane Rodrigues, Deborah Fernandes, Marilúcia Pereira do Lago, Márcio Fernandes, Fabrizzio Soares, Kairo Silva, Información sobre técnicas computacionales para detectar la depresión en el texto , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Taís Carpes Lanes, Graziele de Lima Dalmolin , Camila Antunez Villagran, Augusto Maciel da Silva, Patentes y registros de software de gestión sanitaria , Journal of Health Informatics: Vol. 16 (2024)
Juliana Pereira de Souza-Zinader, Plínio de Sá Leitão Junior, Michael Luiz Diana de Oliveira, Suse Barbosa Castilho, Luiselena Luna Esmeraldo, Diana Ferreira Guimarães, Carlos Augusto Gonçalves Tibiriçá, Fábio Nogueira de Lucena, Renata Dutra Braga, Dandra Alves de Souza, Proceso de modelado de información de salud: una aproximación al contexto brasileño , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Edilson Carlos Carita, Rafael Andrucioli Nini, Alexandra de Souza Melo, Sistema de auxílio aos diagnósticos de enfermagem para vítimas de trauma no atendimento avançado pré-hospitalar móvel utilizando as Taxonomias NANDA e NIC , Journal of Health Informatics: Vol. 2 Núm. 4 (2010)
Cleyton Tenório de Lima, Bárbara Emanuelle de Farias, Thainá Ruth França de Farias, Luana Pinheiro de Sousa, Raquel Campos Leal Teixeira, Maria Eduarda Augusta de Souza, Kleberson de Araújo Bezerra, Amadeu Sá de Campos Filho, Tecnologías en la navegación digital de pacientes oncológicos: revisión sistemática de la literatura , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

1 2 3 4 5 6 7 8 9 10 > >>

También puede {advancedSearchLink} para este artículo.

Artículos más leídos del mismo autor/a

Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso, Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Elisa Terumi Rubel Schneider, Fernando Henrique Schneider, Yohan Bonescki Gumiel, Lilian Mie Mukai Cintho, Adriana Pagano, Emerson Cabrera Paraiso, Marina de Sa Rebelo, Marco Antonio Gutierrez, Jose Eduardo Krieger, Claudia Moro, Desidentificación de narrativas clínicas con modelos generativos de código abierto , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020

Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Luiz Henrique Pereira Niero, Comsentimento NLP Lab

João Vitor Andrioli de Souza, Comsentimento NLP Lab

Luciana Martins Gomes da Silva, Comsentimento NLP Lab

Yohan Bonescki Gumiel, Faculdade de Medicina da Universidade de São Paulo

Nícolas Henrique Borges, Comsentimento NLP Lab

Gustavo Henrique Munhoz Piotto, Comsentimento NLP Lab

Gustavo Giavarini, Comsentimento NLP Lab

Lucas Emanuel Silva e Oliveira, Comsentimento NLP Lab

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos similares

Artículos más leídos del mismo autor/a

Idioma

Mapa de Visitas

Indexadores, Bases de Dados, Repositórios e Bibliotecas

Información

Número actual