Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano

Autores

  • Fernando Sequeira Sousa UNIFESP
  • Felipe Mancini IF-Guarulhos/UNIFESP
  • Fabio Oliveira Teixeira UNIFESP
  • Alex Esteves Jaccoud Falcão UNIFESP
  • Anderson Diniz Hummel UNIFESP
  • Fatima de Lourdes dos Santos Nunes USP
  • Daniel Sigulem UNIFESP
  • Ivan Torres Pisa UNIFESP

Palavras-chave:

Armazenamento e Recuperação de Informação/Classificação, Informação de Saúde ao Consumidor, Internet

Resumo

Objetivo: Investigar aplicação de diferentes métodos de representação de textos por vetores de pesos com classificador bayesiano para classificação automática de conteúdos web de saúde em português. Métodos: Foi utilizado conjunto de 3.702 páginas web de saúde em português dividido em 19 categorias provenientes do Open Directory Project. Foram comparados desempenho de 4 métodos de representação de textos por vetores de pesos utilizados com o classificador Naive Bayes, medidos por revocação, precisão e F2, considerando da primeira à quinta posições dos rankings de relevância de categorias. Resultados: A representação dos textos por ocorrência dos termos utilizada com o classificador Naive Bayes (nb-to) atingiu 0,91 de revocação, precisão e F2 para a primeira posição do ranking de relevância de categorias; para a quinta posição os valores foram 0,98; 0,20 e 0,54, respectivamente. Estes valores colocam nb-to como o melhor classificador dos investigados para a base de dados utilizada, com diferença estatística entre este e todos os demais classificadores. Conclusão: Métodos de recuperação de informação baseados no Naive Bayes podem ser utilizados com sucesso para categorizar conteúdo web de saúde em idioma português, sendo que o classificador nb-to atingiu o melhor desempenho na tarefa de classificação.

Downloads

Publicado

27-03-2012

Como Citar

Sousa, F. S., Mancini, F., Teixeira, F. O., Falcão, A. E. J., Hummel, A. D., Nunes, F. de L. dos S., … Pisa, I. T. (2012). Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano. Journal of Health Informatics, 4(1). Recuperado de https://jhi.sbis.org.br/index.php/jhi-sbis/article/view/170

Edição

Seção

Artigo Original

Artigos Semelhantes

1 2 3 4 5 6 7 8 9 10 > >> 

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.

Artigos mais lidos pelo mesmo(s) autor(es)

1 2 3 4 > >>