Corpora Analysis: Journalistic and Scientific

Autores

  • José Márcio Duarte Universidade Federal de São Paulo
  • Kelsy Areco Universidade Federal de São Paulo
  • Samuel Goihman Universidade Federal de São Paulo
  • Edvane Birelo Lopes De Domenico Universidade Federal de São Paulo
  • Felipe Mancini Universidade Federal de São Paulo

Palavras-chave:

Natural Language Processing, Medical Informatics, Information Science

Resumo

Objective: This study aimed to compare two Corpora, one obtained from compiled newspapers – Journalistic Corpus, and the other from scientific papers – Scientific Corpus, with the hypothesis that the Scientific Corpus is more appropriated to Part-of-Speech information extraction in scientific similar texts. The aims were to analyze differences and similarities through: accuracy measurement; descriptive analysis; and independence of components in the Corpora. Methods: The analysis consisted on three steps: Descriptive Analysis; Accuracy Assessment; and Pointwise Mutual Information - PMI. Results: There was an important difference between words that do not match in both Corpora. The Scientific Corpus (92.95%) accuracy assessment  was higher than Newspaper Corpus (88.32%). The PMI calculations for the bigrams of Newspaper and Scientific Corpora did not show statistically significant difference. Conclusion: The experiments carried out lead us to conclude that in order to extract PoS information with accuracy a better performance resulted with the association of scientific text with its specific Corpus and not a generic one, like Newspaper Corpus.

Biografia do Autor

José Márcio Duarte, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Kelsy Areco, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na elaboração de base de dados para análise estatística.

 

Samuel Goihman, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de Epidemiologia e Gestão, com ênfase em Administração de Serviços e Sistemas de Saúde, atuando principalmente nos seguintes temas: informação e saúde.

Edvane Birelo Lopes De Domenico, Universidade Federal de São Paulo

Departmento de Enfermagem Clínica e Cirúrgica.

Possui experiência técnica e em pesquisa na área de Oncologia e Enfermagem na Saúde do Adulto; Educação Profissional e em Saúde.

Felipe Mancini, Universidade Federal de São Paulo

Universidade Aberta do Brasil.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Downloads

Publicado

20-08-2018

Como Citar

Duarte, J. M., Areco, K., Goihman, S., Birelo Lopes De Domenico, E., & Mancini, F. (2018). Corpora Analysis: Journalistic and Scientific. Journal of Health Informatics, 10(3). Recuperado de https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/545

Edição

Seção

Artigo Original

Artigos Semelhantes

1 2 3 4 5 6 7 8 9 > >> 

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)