Corpora Analysis: Journalistic and Scientific

José Márcio Duarte; Kelsy Areco; Samuel Goihman; Edvane Birelo Lopes De Domenico; Felipe Mancini

Corpora Analysis: Journalistic and Scientific

Authors

José Márcio Duarte Universidade Federal de São Paulo
Kelsy Areco Universidade Federal de São Paulo
Samuel Goihman Universidade Federal de São Paulo
Edvane Birelo Lopes De Domenico Universidade Federal de São Paulo
Felipe Mancini Universidade Federal de São Paulo

Keywords:

Natural Language Processing, Medical Informatics, Information Science

Abstract

Objective: This study aimed to compare two Corpora, one obtained from compiled newspapers – Journalistic Corpus, and the other from scientific papers – Scientific Corpus, with the hypothesis that the Scientific Corpus is more appropriated to Part-of-Speech information extraction in scientific similar texts. The aims were to analyze differences and similarities through: accuracy measurement; descriptive analysis; and independence of components in the Corpora. Methods: The analysis consisted on three steps: Descriptive Analysis; Accuracy Assessment; and Pointwise Mutual Information - PMI. Results: There was an important difference between words that do not match in both Corpora. The Scientific Corpus (92.95%) accuracy assessment was higher than Newspaper Corpus (88.32%). The PMI calculations for the bigrams of Newspaper and Scientific Corpora did not show statistically significant difference. Conclusion: The experiments carried out lead us to conclude that in order to extract PoS information with accuracy a better performance resulted with the association of scientific text with its specific Corpus and not a generic one, like Newspaper Corpus.

Downloads

Download data is not yet available.

Author Biographies

José Márcio Duarte, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Kelsy Areco, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na elaboração de base de dados para análise estatística.

Samuel Goihman, Universidade Federal de São Paulo

Departamento de Informática e Saúde.

Tem experiência na área de Epidemiologia e Gestão, com ênfase em Administração de Serviços e Sistemas de Saúde, atuando principalmente nos seguintes temas: informação e saúde.

Edvane Birelo Lopes De Domenico, Universidade Federal de São Paulo

Departmento de Enfermagem Clínica e Cirúrgica.

Possui experiência técnica e em pesquisa na área de Oncologia e Enfermagem na Saúde do Adulto; Educação Profissional e em Saúde.

Felipe Mancini, Universidade Federal de São Paulo

Universidade Aberta do Brasil.

Tem experiência na área de ciência da computação com ênfase em informática em saúde.

Downloads

PDF (Português (Brasil))

Published

2018-08-20

How to Cite

Duarte, J. M., Areco, K., Goihman, S., Birelo Lopes De Domenico, E., & Mancini, F. (2018). Corpora Analysis: Journalistic and Scientific. Journal of Health Informatics, 10(3). Retrieved from https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/545

Download Citation

Issue

Vol. 10 No. 3 (2018)

Section

Original Articles

License

Submission of a paper to Journal of Health Informatics is understood to imply that it is not being considered for publication elsewhere and that the author(s) permission to publish his/her (their) article(s) in this Journal implies the exclusive authorization of the publishers to deal with all issues concerning the copyright therein. Upon the submission of an article, authors will be asked to sign a Copyright Notice. Acceptance of the agreement will ensure the widest possible dissemination of information. An e-mail will be sent to the corresponding author confirming receipt of the manuscript and acceptance of the agreement.

Most read articles by the same author(s)

Alex Esteves Jaccoud Falcão, Felipe Mancini, Thiago Martini da Costa, Anderson Diniz Hummel, Fabio Oliveira Teixeira, Daniel Sigulem, Ivan Torres Pisa, InDeCS: Método automatizado de classificação de páginas Web de Saúde usando mineração de texto e Descritores em Ciências da Saúde (DeCS) , Journal of Health Informatics: Vol. 1 No. 1 (2009)
Rafael Fabio Maciel, Anderson Diniz Hummel, Frederico Molina Cohrs, Felipe Mancini, Alex Esteves Jaccoud Falcão, Fabio de Oliveira Teixeira, Thiago Martini da Costa, Fernando Sequeira de Sousa, Domingos Alves, Rafael Miranda, Ivan Torres Pisa, Aplicação de Técnicas de Inteligência Artificial em Transplantes Renais: Classificadores Automáticos para Nefrotoxicidade e Rejeição Celular Aguda. , Journal of Health Informatics: Vol. 2 No. 3 (2010)
Gabriela Denise de Araujo, Fabio Oliveira Teixeira, Felipe Mancini, Marcelo de Paiva Guimarães, Ivan Torres Pisa, Sentiment Analysis of Twitter’s Health Messages in Brazilian Portuguese , Journal of Health Informatics: Vol. 10 No. 1 (2018)
Fernando Sequeira Sousa, Felipe Mancini, Fabio Oliveira Teixeira, Alex Esteves Jaccoud Falcão, Anderson Diniz Hummel, Fatima de Lourdes dos Santos Nunes, Daniel Sigulem, Ivan Torres Pisa, Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano , Journal of Health Informatics: Vol. 4 No. 1 (2012)
Gabriela Denise de Araujo, Fernando Sequeira Sousa, Fabio Teixeira, Felipe Mancini, Edvane Birelo Lopes De Domenico, Marcelo de Paiva Guimarães, Ivan Torres Pisa, Análise de sentimentos sobre temas de saúde em mídia social , Journal of Health Informatics: Vol. 4 No. 3 (2012)
Fabio Teixeira, Alex Jaccoud Falcão, Fernando Siqueira Sousa, Anderson Diniz Hummel, Thiago Martini Costa, Felipe Mancini, Luciano Vieira Araujo, Ivan Torres Pisa, Similarity-based scoring method for classification of Health Informatics content , Journal of Health Informatics: Vol. 3 No. 2 (2011)
Alex Esteves Jaccoud Falcão, Felipe Mancini, Fabio Oliveira Teixeira, Fernando Sequeira Sousa, Anderson Diniz Hummel, Kellen Cristine Aureliano, Thiago Martini Costa, Daniel Sigulem, Ivan Torres Pisa, Análise da percepção de usuários sobre a qualidade de websites em saúde comparada com os critérios de adequação da HON , Journal of Health Informatics: Vol. 3 No. 3 (2011)
Antonio Carlos da Silva Junior, Emanuela Cristina Ramos Gonçalves, Paulo Schor, Martina Navarro, Felipe Mancini, Geração de dados sintéticos para classificação de disléxicos por meio de aprendizado de máquina , Journal of Health Informatics: Vol. 13 No. 1 (2021)
Felipe Mancini, Alex Esteves Jaccoud Falcão, Liu Chiao Yi, Shirley Shizue Nagata Pignatari, Domingos Alves, Ivan Torres Pisa, Comparação de algoritmos de redes neurais artificiais no diagnóstico de crianças respiradoras bucais , Journal of Health Informatics: Vol. 1 No. 1 (2009)

Corpora Analysis: Journalistic and Scientific

Authors

Keywords:

Abstract

Downloads

Author Biographies

José Márcio Duarte, Universidade Federal de São Paulo

Kelsy Areco, Universidade Federal de São Paulo

Samuel Goihman, Universidade Federal de São Paulo

Edvane Birelo Lopes De Domenico, Universidade Federal de São Paulo

Felipe Mancini, Universidade Federal de São Paulo

Downloads

Published

How to Cite

Issue

Section

License

Similar Articles

Most read articles by the same author(s)

Language

Map of Visits

Indexadores, Bases de Dados, Repositórios e Bibliotecas

Information

Current Issue