Corpora Analysis: Journalistic and Scientific

Authors

  • José Márcio Duarte Universidade Federal de São Paulo
  • Kelsy Areco Universidade Federal de São Paulo
  • Samuel Goihman Universidade Federal de São Paulo
  • Edvane Birelo Lopes De Domenico Universidade Federal de São Paulo
  • Felipe Mancini Universidade Federal de São Paulo

Keywords:

Natural Language Processing, Medical Informatics, Information Science

Abstract

Objective: This study aimed to compare two Corpora, one obtained from compiled newspapers – Journalistic Corpus, and the other from scientific papers – Scientific Corpus, with the hypothesis that the Scientific Corpus is more appropriated to Part-of-Speech information extraction in scientific similar texts. The aims were to analyze differences and similarities through: accuracy measurement; descriptive analysis; and independence of components in the Corpora. Methods: The analysis consisted on three steps: Descriptive Analysis; Accuracy Assessment; and Pointwise Mutual Information - PMI. Results: There was an important difference between words that do not match in both Corpora. The Scientific Corpus (92.95%) accuracy assessment  was higher than Newspaper Corpus (88.32%). The PMI calculations for the bigrams of Newspaper and Scientific Corpora did not show statistically significant difference. Conclusion: The experiments carried out lead us to conclude that in order to extract PoS information with accuracy a better performance resulted with the association of scientific text with its specific Corpus and not a generic one, like Newspaper Corpus.

Author Biographies

José Márcio Duarte, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Kelsy Areco, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na elaboração de base de dados para análise estatística.

 

Samuel Goihman, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de Epidemiologia e Gestão, com ênfase em Administração de Serviços e Sistemas de Saúde, atuando principalmente nos seguintes temas: informação e saúde.

Edvane Birelo Lopes De Domenico, Universidade Federal de São Paulo

Departmento de Enfermagem Clínica e Cirúrgica.

Possui experiência técnica e em pesquisa na área de Oncologia e Enfermagem na Saúde do Adulto; Educação Profissional e em Saúde.

Felipe Mancini, Universidade Federal de São Paulo

Universidade Aberta do Brasil.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Published

2018-08-20

How to Cite

Duarte, J. M., Areco, K., Goihman, S., Birelo Lopes De Domenico, E., & Mancini, F. (2018). Corpora Analysis: Journalistic and Scientific. Journal of Health Informatics, 10(3). Retrieved from https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/545

Issue

Section

Original Articles

Similar Articles

<< < 2 3 4 5 6 7 8 9 > >> 

You may also start an advanced similarity search for this article.

Most read articles by the same author(s)