Developing a Transformer-based Clinical Part-of-Speech Tagger for Brazilian Portuguese

Elisa Terumi Rubel Schneider; Yohan Bonescki Gumiel; Lucas Ferro Antunes de Oliveira; Carolina de Oliveira Montenegro; Laura Rubel Barzotto; Claudia Moro; Adriana Pagano; Emerson Cabrera Paraiso

doi:10.59681/2175-4411.v15.iEspecial.2023.1086

Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños

Autores/as

Elisa Terumi Rubel Schneider Pontifícia Universidade Católica do Paraná - PUCPR
Yohan Bonescki Gumiel Universidade Federal de Minas Gerais - UFMG
Lucas Ferro Antunes de Oliveira Pontifícia Universidade Católica do Paraná - PUCPR
Carolina de Oliveira Montenegro Pontifícia Universidade Católica do Paraná - PUCPR
Laura Rubel Barzotto Pontifícia Universidade Católica do Paraná - PUCPR
Claudia Moro Pontifícia Universidade Católica do Paraná - PUCPR
Adriana Pagano Universidade Federal de Minas Gerais - UFMG
Emerson Cabrera Paraiso Pontifícia Universidade Católica do Paraná - PUCPR

DOI:

https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086

Palabras clave:

Procesamiento de Lenguaje Natural, Historia Clínica Electrónica, Aprendizaje Profundo

Resumen

La historia clínica electrónica contiene información valiosa que puede extraerse mediante tareas de procesamiento del lenguaje natural (PLN), como el etiquetado morfosintáctico. Aunque se han observado grandes avances en el PNL para la salud, como la arquitectura Transformer, lenguas como el portugués continúan subrepresentadas. En este trabajo, presentamos etiquetadores desarrollados para textos en portugués, refinados usando los modelos BioBERtpt (clínico/biomédico) y BERTimbau (genérico) en un corpus con anotaciones morfosintácticas. Alcanzamos una exactitud de 0,9826, estado del arte para el corpus utilizado. Además, realizamos una evaluación por humanos de los modelos entrenados y de otros en la literatura, utilizando narrativas clínicas auténticas. Nuestro modelo clínico alcanzó una exactitud de 0,8145 en comparación con 0,7656 del modelo genérico. También mostró resultados competitivos frente a modelos entrenados específicamente con textos clínicos, lo que pone de manifiesto el impacto del dominio sobre el modelo base en tareas de PLN.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Yohan Bonescki Gumiel, Universidade Federal de Minas Gerais - UFMG

Universidade Federal de Minas Gerais - UFMG. Laboratório de Informática Biomédica - Instituto do Coração - HC FMUSP.

Lucas Ferro Antunes de Oliveira, Pontifícia Universidade Católica do Paraná - PUCPR

Pontifícia Universidade Católica do Paraná - PUCPR. Universidade Federal de Minas Gerais - UFMG.

Citas

Jurafsky D, Martin JH. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Second. Prentice Hall; 2008.

Fonseca ER, Rosa JLG, Aluísio SM. Evaluating word embeddings and a revised corpus for part-of-speech tagging in Portuguese. Journal of the Brazilian Computer Society. 2014;21:1-14.

Aluísio S, Pelizzoni J, Marchi AR, de Oliveira L, Manenti R, Marquiafável V. An Account of the Challenge of Tagging a Reference Corpus for Brazilian Portuguese. In: Mamede NJ, Trancoso I, Baptista J, das Graças Volpe Nunes M, editors. Computational Processing of the Portuguese Language. Berlin, Heidelberg: Springer Berlin Heidelberg; 2003. p. 110-7.

Fonseca ER, Rosa JLG. Mac-Morpho revisited: towards robust part-of-speech tagging [Internet]. Proceedings. 2013 ;[citado 2022 ago. 09 ] Available from: http://www.lbd.dcc.ufmg.br/colecoes/stil/2013/0011.pdf

Dos Santos CN, Zadrozny B. Learning character-level representations for part-of-speech tagging. ICML’14 Proc. 31st Int. Conf. Int. Conf. Mach Learn. 2014;32:1818–26.

Fernandes ER, Rodrigues IM, Milidiu RL. Portuguese Part-of-Speech Tagging with Large Margin Structure Learning. 2014 Brazilian Conf. Intell. Syst., IEEE; 2014, p. 25–30. doi: https://doi.org/10. 1109/BRACIS.2014.16.

De Sousa RCC, Lopes H. Portuguese POS Tagging Using BLSTM Without Handcrafted Features. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11896 LNCS, 2019, p. 120–30. doi: https://doi.org/10.1007/978-3- 030-33904-3_11.

Oleynik M, Nohama P, Cancian PS, Schulz S. Performance analysis of a POS tagger applied to discharge summaries in portuguese. Stud Health Technol Inform. 2010;160:959–63. https://doi.org/10.3233/ 978-1-60750-588-4-959.

Ferro Antunes de Oliveira L, Oliveira L, Gumiel Y, Carvalho D, Moro C. Defining a state-of-the-art POS-tagging environment for Brazilian Portuguese clinical texts. Research on Biomedical Engineering. 2020 06;36.

De Oliveira LFA, Pagano A, e Oliveira LES, Moro C. Challenges in Annotating a Treebank of Clinical Narratives in Brazilian Portuguese. In: Pinheiro V, Gamallo P, Amaro R, Scarton C, Batista F, Silva D, et al., editors. Computational Processing of the Portuguese Language. Cham: Springer International Publishing; 2022. p. 90-100.

Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention is All you Need. In: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, et al., editors. Advances in Neural Information Processing Systems. vol. 30. Curran Associates, Inc.; 2017.

Devlin J, Chang MW, Lee K, Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics; 2019. p. 4171-86.

Schneider ETR, de Souza JVA, Knafou J, Oliveira LESe, Copara J, Gumiel YB, et al. BioBERTpt - A Portuguese Neural Language Model for Clinical Named Entity Recognition. In: Proceedings of the 3rd Clinical Natural Language Processing Workshop. Online: Association for Computational Linguistics; 2020. p. 65-72.

Souza F, Nogueira R, Lotufo R. BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Cerri R, Prati RC, editors. Intelligent Systems. Cham: Springer International Publishing; 2020. p. 403-17.

E Oliveira LES, Peters AC, da Silva AMP, Gebeluca CP, Gumiel YB, Cintho LMM, et al. SemClinBr - a multi-institutional and multi-specialty semantically annotated corpus for Portuguese clinical NLP tasks. Journal of Biomedical Semantics. 2022 May;13(1).

Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A, et al. Transformers: State-of-the-Art Natural Language Processing. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Online: Association for Computational Linguistics; 2020. p. 38-45.

Santos CND, Zadrozny B. Training state-of-the-art portuguese POS taggers without handcrafted features. In: International Conference on Computational Processing of the Portuguese Language. Springer, Cham, 2014. p. 82-93.

Gumiel YB, Oliveira LES, Claveau V, Grabar N, Paraiso EC, Moro C, et al. Temporal Relation Extraction in Clinical Texts: A Systematic Review. ACM Computing Surveys (CSUR), v. 54, n. 7, p. 1-36, 2021.

Descargas

PDF (Português (Brasil))

Publicado

2023-07-20

Cómo citar

Schneider, E. T. R., Gumiel, Y. B., Oliveira, L. F. A. de, Montenegro, C. de O., Barzotto, L. R., Moro, C., … Paraiso, E. C. (2023). Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños. Journal of Health Informatics, 15(Especial). https://doi.org/10.59681/2175-4411.v15.iEspecial.2023.1086

Descargar cita

Número

Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde

Sección

CBIS 2022

Licencia

Derechos de autor 2023 Elisa Terumi Rubel Schneider, Yohan Bonescki Gumiel, Lucas Ferro Antunes de Oliveira, Carolina de Oliveira Montenegro, Laura Rubel Barzotto, Claudia Moro, Adriana Pagano, Emerson Cabrera Paraiso

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

La sumisión de un artículo a el Journal of Health Informatics es entendida como exclusiva y que no esta siendo considerado para publicación en otro periódico. La permisión de los autores para la publicación de su artículo en lo JHI implica en la exclusiva autorización concedida a los editores para su inclusión en la revista. Al someter un artículo, a lo autor será solicitada la permisión electrónica de una Nota de Copyright. Una mensaje electrónica será enviada a lo autor correspondiente confirmando el recibo del manuscrito y lo aceite de la Nota de Copyright.

Artículos similares

Juan Felipe Soares Oliveira, Miriam Struchiner, El El proceso de aprendizaje en la simulación clínica pediátrica y el papel de las tecnologías educativas: , Journal of Health Informatics: Vol. 18 (2026)
Rildo Pinto da Silva, Antonio Pazin-Filho, Anonimización de textos médicos con procesamiento del lenguaje natural , Journal of Health Informatics: Vol. 17 (2025)
Giovanna Alves Gadelha, Renan Augusto Pereira, Flávia Magalhães Guedes, Ana Trindade Winck, Procesamiento del Lenguaje Natural en la Identificación de Alérgenos en Etiquetas de Alimentos: Una Aplicación en el Contexto Brasileño , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Leidiane Rodrigues, Deborah Fernandes, Marilúcia Pereira do Lago, Márcio Fernandes, Fabrizzio Soares, Kairo Silva, Información sobre técnicas computacionales para detectar la depresión en el texto , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Ítalo Santos de Oliveira, Rodrigo Rafael Villarreal Goulart, Detección de discurso de odio para apoyo a la salud mental , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Rafael Guimarães Malanga, Viviane Rodrigues Botelho, Thatiane Alves Pianoschi, Jose Rodrigo Mendes Andrade, Guilherme Ribeiro Garcia, Rochelle Lykawka, Alexandre Bacelar, Carla Diniz Lopes Becker, Predicción de la edad ósea a partir de imágenes radiográficas del carpo usando aprendizaje profundo , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Carlos Eduardo Rodrigues Mello, Elisa Terumi Rubel Schneider, Lucas Emanuel Silva e Oliveira, Juliana Nabbouh do Nascimento, Yohan Bonescki Gumie, Isabela Fontes de Araújo, Claudia Moro, Evaluación de modelos de lenguaje en la extracción de información clínica , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Rita de Cássia Almeida Sales, Isaura Romero Peixoto, Shirley da Silva Jacinto de Oliveira Cruz, Wellington Pinheiro dos Santos, Optimización de la auditoría interna de los registros quirúrgicos: un enfoque basado en IA , Journal of Health Informatics: Vol. 17 (2025)
William Henrique Pereira Costa, Luiz Eduardo Borges da Silva, Clasificación Múltiple de Señales da Electroencefalograma, para Imaginación Motora, Utilizando Procesamiento Estadístico de Señales y Aprendizaje Profundo , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Willian de Vargas, Dieine Estela Bernieri Schiavon, Viviane Rodrigues Botelho, Thatiane Alves Pianoski, Carla Diniz Lopes Becker, Mejora de la clasificación automática de tumores cerebrales con técnicas de aprendizaje profundo , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde

1 2 3 4 5 6 7 8 9 10 > >>

También puede Iniciar una búsqueda de similitud avanzada para este artículo.

Artículos más leídos del mismo autor/a

Gabrielle dos Santos Leandro, Claudia Moro, SISVAL-RENAL: apoyo para el manejo de la anemia en la insuficiencia renal , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Luiz Henrique Pereira Niero, João Vitor Andrioli de Souza, Luciana Martins Gomes da Silva, Yohan Bonescki Gumiel, Nícolas Henrique Borges, Gustavo Henrique Munhoz Piotto, Gustavo Giavarini, Lucas Emanuel Silva e Oliveira, Desafíos y Problemas en la Extracción de Entidades Nombradas de las Notas Clínicas de Oncología , Journal of Health Informatics: Vol. 15 Núm. Especial (2023): XIX Congresso Brasileiro de Informática em Saúde
Carlos Eduardo Rodrigues Mello, Elisa Terumi Rubel Schneider, Lucas Emanuel Silva e Oliveira, Juliana Nabbouh do Nascimento, Yohan Bonescki Gumie, Isabela Fontes de Araújo, Claudia Moro, Evaluación de modelos de lenguaje en la extracción de información clínica , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Elisa Terumi Rubel Schneider, Fernando Henrique Schneider, Yohan Bonescki Gumiel, Lilian Mie Mukai Cintho, Adriana Pagano, Emerson Cabrera Paraiso, Marina de Sa Rebelo, Marco Antonio Gutierrez, Jose Eduardo Krieger, Claudia Moro, Desidentificación de narrativas clínicas con modelos generativos de código abierto , Journal of Health Informatics: Vol. 16 Núm. Especial (2024): Congresso Brasileiro de Informática em Saúde
Giovanni Pazini Meneghel Paiva, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Ferro Antunes de Oliveira, João Vitor Andrioli, Claudia Maria Cabral Moro Barra, Emerson Cabrera Paraiso, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, COVID 19: O que sentem os brasileiros de acordo com o Twitter? , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020
João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider, Josilaine Oliveira Cezar, Lucas Emanuel Silva e Oliveira, Yohan Bonescki Gumiel, Emerson Cabrera Paraiso, Douglas Teodoro, Claudia Maria Cabral Moro Barra, A Multilabel Approach to Portuguese Clinical Named Entity Recognition , Journal of Health Informatics: Vol. 12 (2020): Suplemento I - XVII Congresso Brasileiro de Informática em Saúde - CBIS 2020

Desarrollo de un etiquetador morfosintáctico basado en Transformer para textos clínicos brasileños

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Yohan Bonescki Gumiel, Universidade Federal de Minas Gerais - UFMG

Lucas Ferro Antunes de Oliveira, Pontifícia Universidade Católica do Paraná - PUCPR

Citas

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Artículos similares

Artículos más leídos del mismo autor/a

Idioma

Indexadores, Bases de Dados, Repositórios e Bibliotecas

Información

Número actual