Categorização automática de conteúdos web de saúde em português brasileiro com classificador bayesiano
Palavras-chave:
Armazenamento e Recuperação de Informação/Classificação, Informação de Saúde ao Consumidor, InternetResumo
Objetivo: Investigar aplicação de diferentes métodos de representação de textos por vetores de pesos com classificador bayesiano para classificação automática de conteúdos web de saúde em português. Métodos: Foi utilizado conjunto de 3.702 páginas web de saúde em português dividido em 19 categorias provenientes do Open Directory Project. Foram comparados desempenho de 4 métodos de representação de textos por vetores de pesos utilizados com o classificador Naive Bayes, medidos por revocação, precisão e F2, considerando da primeira à quinta posições dos rankings de relevância de categorias. Resultados: A representação dos textos por ocorrência dos termos utilizada com o classificador Naive Bayes (nb-to) atingiu 0,91 de revocação, precisão e F2 para a primeira posição do ranking de relevância de categorias; para a quinta posição os valores foram 0,98; 0,20 e 0,54, respectivamente. Estes valores colocam nb-to como o melhor classificador dos investigados para a base de dados utilizada, com diferença estatística entre este e todos os demais classificadores. Conclusão: Métodos de recuperação de informação baseados no Naive Bayes podem ser utilizados com sucesso para categorizar conteúdo web de saúde em idioma português, sendo que o classificador nb-to atingiu o melhor desempenho na tarefa de classificação.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
A submissão de um artigo ao Journal of Health Informatics é entendida como exclusiva e que não está sendo considerada para publicação em outra revista. A permissão dos autores para a publicação de seu artigo no J. Health Inform. implica na exclusiva autorização concedida aos editores para incluí-lo na revista. Ao submeter um artigo, ao autor será solicitada a permissão eletrônica de um Termo de Transferência de Direitos Autorais. Uma mensagem eletrônica será enviada ao autor correspondente confirmando o recibo do manuscrito e o aceite da Declaração de Direito Autoral.