Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano

Authors

  • Fernando Sequeira Sousa UNIFESP
  • Felipe Mancini IF-Guarulhos/UNIFESP
  • Fabio Oliveira Teixeira UNIFESP
  • Alex Esteves Jaccoud Falcão UNIFESP
  • Anderson Diniz Hummel UNIFESP
  • Fatima de Lourdes dos Santos Nunes USP
  • Daniel Sigulem UNIFESP
  • Ivan Torres Pisa UNIFESP

Keywords:

Armazenamento e Recuperação de Informação/Classificação, Informação de Saúde ao Consumidor, Internet

Abstract

Objetivo: Investigar aplicação de diferentes métodos de representação de textos por vetores de pesos com classificador bayesiano para classificação automática de conteúdos web de saúde em português. Métodos: Foi utilizado conjunto de 3.702 páginas web de saúde em português dividido em 19 categorias provenientes do Open Directory Project. Foram comparados desempenho de 4 métodos de representação de textos por vetores de pesos utilizados com o classificador Naive Bayes, medidos por revocação, precisão e F2, considerando da primeira à quinta posições dos rankings de relevância de categorias. Resultados: A representação dos textos por ocorrência dos termos utilizada com o classificador Naive Bayes (nb-to) atingiu 0,91 de revocação, precisão e F2 para a primeira posição do ranking de relevância de categorias; para a quinta posição os valores foram 0,98; 0,20 e 0,54, respectivamente. Estes valores colocam nb-to como o melhor classificador dos investigados para a base de dados utilizada, com diferença estatística entre este e todos os demais classificadores. Conclusão: Métodos de recuperação de informação baseados no Naive Bayes podem ser utilizados com sucesso para categorizar conteúdo web de saúde em idioma português, sendo que o classificador nb-to atingiu o melhor desempenho na tarefa de classificação.

Published

2012-03-27

How to Cite

Sousa, F. S., Mancini, F., Teixeira, F. O., Falcão, A. E. J., Hummel, A. D., Nunes, F. de L. dos S., … Pisa, I. T. (2012). Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano. Journal of Health Informatics, 4(1). Retrieved from https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/170

Issue

Section

Original Articles

Similar Articles

<< < 3 4 5 6 7 8 9 10 11 12 > >> 

You may also start an advanced similarity search for this article.

Most read articles by the same author(s)

1 2 3 4 > >>