Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano
Keywords:
Armazenamento e Recuperação de Informação/Classificação, Informação de Saúde ao Consumidor, InternetAbstract
Objetivo: Investigar aplicação de diferentes métodos de representação de textos por vetores de pesos com classificador bayesiano para classificação automática de conteúdos web de saúde em português. Métodos: Foi utilizado conjunto de 3.702 páginas web de saúde em português dividido em 19 categorias provenientes do Open Directory Project. Foram comparados desempenho de 4 métodos de representação de textos por vetores de pesos utilizados com o classificador Naive Bayes, medidos por revocação, precisão e F2, considerando da primeira à quinta posições dos rankings de relevância de categorias. Resultados: A representação dos textos por ocorrência dos termos utilizada com o classificador Naive Bayes (nb-to) atingiu 0,91 de revocação, precisão e F2 para a primeira posição do ranking de relevância de categorias; para a quinta posição os valores foram 0,98; 0,20 e 0,54, respectivamente. Estes valores colocam nb-to como o melhor classificador dos investigados para a base de dados utilizada, com diferença estatística entre este e todos os demais classificadores. Conclusão: Métodos de recuperação de informação baseados no Naive Bayes podem ser utilizados com sucesso para categorizar conteúdo web de saúde em idioma português, sendo que o classificador nb-to atingiu o melhor desempenho na tarefa de classificação.