Corpora Analysis: Journalistic and Scientific

José Márcio Duarte; Kelsy Areco; Samuel Goihman; Edvane Birelo Lopes De Domenico; Felipe Mancini

Corpora Analysis: Journalistic and Scientific

Autores

José Márcio Duarte Universidade Federal de São Paulo
Kelsy Areco Universidade Federal de São Paulo
Samuel Goihman Universidade Federal de São Paulo
Edvane Birelo Lopes De Domenico Universidade Federal de São Paulo
Felipe Mancini Universidade Federal de São Paulo

Palavras-chave:

Natural Language Processing, Medical Informatics, Information Science

Resumo

Objective: This study aimed to compare two Corpora, one obtained from compiled newspapers – Journalistic Corpus, and the other from scientific papers – Scientific Corpus, with the hypothesis that the Scientific Corpus is more appropriated to Part-of-Speech information extraction in scientific similar texts. The aims were to analyze differences and similarities through: accuracy measurement; descriptive analysis; and independence of components in the Corpora. Methods: The analysis consisted on three steps: Descriptive Analysis; Accuracy Assessment; and Pointwise Mutual Information - PMI. Results: There was an important difference between words that do not match in both Corpora. The Scientific Corpus (92.95%) accuracy assessment was higher than Newspaper Corpus (88.32%). The PMI calculations for the bigrams of Newspaper and Scientific Corpora did not show statistically significant difference. Conclusion: The experiments carried out lead us to conclude that in order to extract PoS information with accuracy a better performance resulted with the association of scientific text with its specific Corpus and not a generic one, like Newspaper Corpus.

Biografias Autor

José Márcio Duarte, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Kelsy Areco, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na elaboração de base de dados para análise estatística.

Samuel Goihman, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de Epidemiologia e Gestão, com ênfase em Administração de Serviços e Sistemas de Saúde, atuando principalmente nos seguintes temas: informação e saúde.

Edvane Birelo Lopes De Domenico, Universidade Federal de São Paulo

Departmento de Enfermagem Clínica e Cirúrgica.

Possui experiência técnica e em pesquisa na área de Oncologia e Enfermagem na Saúde do Adulto; Educação Profissional e em Saúde.

Felipe Mancini, Universidade Federal de São Paulo

Universidade Aberta do Brasil.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Downloads

PDF (Português (Brasil))

Publicado

2018-08-20

Como Citar

Duarte, J. M., Areco, K., Goihman, S., Birelo Lopes De Domenico, E., & Mancini, F. (2018). Corpora Analysis: Journalistic and Scientific. Journal of Health Informatics, 10(3). Obtido de https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/545

Descarregar Citação

Edição

Vol. 10 N.º 3 (2018)

Secção

Artigo Original

Licença

A submissão de um artigo ao Journal of Health Informatics é entendida como exclusiva e que não está sendo considerada para publicação em outra revista. A permissão dos autores para a publicação de seu artigo no J. Health Inform. implica na exclusiva autorização concedida aos editores para incluí-lo na revista. Ao submeter um artigo, ao autor será solicitada a permissão eletrônica de um Termo de Transferência de Direitos Autorais. Uma mensagem eletrônica será enviada ao autor correspondente confirmando o recibo do manuscrito e o aceite da Declaração de Direito Autoral.