Naive Bayes: Mineração de dados na prática - Revista SQL Magazine 110
Este artigo apresenta aspectos teóricos e práticos sobre a técnica de mineração de classificadores conhecida como Naïve Bayes. A partir de um pequeno exemplo, são descritos os passos executados para realizar a construção do classificador.
ArtigosBanco de DadosNaive Bayes: Mineração de dados na prática - Revista SQL Magazine 110
Artigo do tipo Tutorial
Recursos especiais neste artigo: Contém nota Quickupdate, Conteúdo sobre boas práticas.
Mineração de dados na prática Classificação é provavelmente a
tarefa de data mining mais conhecida e utilizada. Ela consiste em associar
objetos a um conjunto pré-definido de classes de acordo com as suas
características. As aplicações práticas incluem aprovação de crédito, detecção
de fraudes, diagnóstico médico, entre outras. Este artigo apresenta aspectos
teóricos e práticos sobre a técnica de mineração de classificadores conhecida
como Naïve Bayes.
Este artigo aborda a técnica de
classificação Naïve Bayes e está dividido em duas partes. A primeira é teórica.
A partir de um pequeno exemplo, são descritos os passos executados pelo Naïve
Bayes para realizar a construção do classificador e para efetuar a
classificação de novos objetos. A segunda parte é prática, apresentando as
instruções para utilizar o Naïve Bayes em projetos reais de mineração de dados
com o uso da Weka API, uma biblioteca open source que possibilita a criação de
sistemas para mineração de dados na Linguagem Java.
Em que situação o tema útil Este artigo descreve os
princípios básicos empregados pela técnica Naïve Bayes para a mineração de
classificadores. O artigo enfoca especialmente a utilização desta técnica em
processos práticos de mineração de dados com o uso da biblioteca open source
Weka (biblioteca Java para mineração de dados). São destacados os seguintes aspectos:
mineração do modelo de classificação, classificação de novos objetos e
interpretação dos resultados obtidos.
Mineração
de dados (data mining) é um processo que utiliza algoritmos para analisar
grandes bases de dados de modo eficiente procurando extrair das mesmas
conhecimento valioso. Uma das mais úteis tarefas de mineração de dados chama-se
classificação. Seu objetivo é bastante simples: um programa de computador deve
atribuir automaticamente uma classe para um objeto cuja classe seja
desconhecida.
Para
que o conceito de classificação fique claro, abriremos este artigo apresentando
alguns exemplos. Como primeiro exemplo, considere um programa que receba como
entrada a fotografia do rosto de uma pessoa e que seja capaz de determinar
automaticamente se ela é do sexo masculino ou feminino. Veja que o objetivo do
programa é associar uma classe (“masculino” ou “feminino”) para um objeto (a
fotografia de um rosto), desta forma, trata-se de um programa que realiza a
tarefa de classificação. Existem diversos outros exemplos de aplicações
práticas mais interessantes e importantes em áreas distintas como segurança de
informações, finanças, comércio, marketing, bioinformática e outras. Alguns são
relacionados a seguir:
Detecção
de fraudes: identificar se uma transação financeira é “legal” ou
“suspeita”.
Programas
de filtragem de spam: detectar se e-mail é “normal” ou “spam”.
Aprovação
de crédito: classificar um cliente como de “alto”, “médio” ou “baixo”
risco para a concessão de crédito.
Atribuição
de tópicos (Topic Tagging):
textos livres (ex: texto de uma notícia), podem ser automaticamente
classificados em um número fixo de categorias (ex: “esporte”, “política”, “cultura”).
Na área de
bioinformática, os algoritmos de classificação possuem diversas aplicações
como, por exemplo, a identificação da classe de proteínas, o que
possibilita descobrir quais são as funções das mesmas.
Um
programa ou algoritmo criado com o intuito de executar a tarefa de
classificação é denominado classificador. Nos dias atuais, a construção de
classificadores precisos e eficientes é considerada um dos grandes desafios na
área de mineração de dados tendo em vista o grande número de aplicações
importantes para a tarefa. Por este motivo, foram desenvolvidas diversas
técnicas (algoritmos) para a construção de classificadores, tais como, árvores
de decisão, redes neurais, SVMs (Support Vector Machines), k-NN (k-Nearest
Neighbors) e Naïve Bayes.
Este
artigo aborda o algoritmo Naïve Bayes, um dos mais simples, populares e
eficientes para classificação. Uma característica atraente desse classificador
é a sua capacidade de produzir estimativas de probabilidade ao invés de simples
classificações. Isto significa que, para
cada rótulo de classe, o classificador pode gerar uma estimativa de o novo
objeto pertencer à mesma.
A
seguir apresenta-se um exemplo. Considere uma instituição financeira que
utilize um software de mineração de dados que empregue o classificador Naïve
Bayes para identificar se os seus potencias clientes apresentam risco “baixo”,
“médio” ou “alto” para a concessão de um financiamento imobiliário. Suponha que
dois novos clientes – Antonio e Juan – serão submetidos ao processo de
classificação. Nesta situação, o classificador poderia gerar um relatório com
formato similar ao mostrado na Listagem
1. Observe que cada objeto é listado juntamente com as estimativas de
probabilidade associadas a cada um dos rótulos de classe possíveis (“baixo”,
“médio” ou “alto”). A maioria das ferramentas comerciais de mineração de dados –
como as embutidas nos SGBDs Oracle e SQL Server - é capaz de gerar relatórios
similares para os usuários.
Listagem 1. Estimativas de
Probabilidade produzidas pelo classificador Naïve Bayes
Este
artigo está dividido em duas partes principais. A primeira contém um breve
resumo dos principais conceitos relacionados ao algoritmo Naïve Bayes. A ideia
é apresentar o conteúdo de teoria suficientemente necessário para habilitar o
leitor a entender o funcionamento básico da técnica. Por sua vez, a segunda
parte do artigo possui um enfoque bem mais prático. Ela tem como principal
objetivo demonstrar a utilização do Naïve Bayes em um sistema de mineração de
dados. Para elaborar este sistema, faremos uso da Weka API, um
software/biblioteca open-source para mineração de dados cujas principais características
foram apresentadas em um artigo da edição 107 da SQL Magazine. Com isto,
espera-se demonstrar a “receita básica” para utilização do Naïve Bayes em
projetos práticos de mineração de dados.
Entendendo o classificador
Naïve Bayes
Esta
seção explica o funcionamento do algoritmo Naïve Bayes a partir da descrição dos
passos que ele emprega para realizar a tarefa de classificação. Com o intuito
de tornar o texto mais “leve” e didático, os conceitos serão introduzidos
através de exemplos baseados no processo de classificação de uma pequena base
de dados contendo informações sobre as vendas de uma loja de departamentos
hipotética. A subseção a seguir apresenta esta base de dados exemplo e oferece
informações gerais sobre as características das bases de dados utilizadas em
processos de classificação.
Bases
de dados para classificação
Conforme
introduzido no início do artigo, a tarefa de classificação possui como objetivo
associar objetos de classe desconhecida a um conjunto pré-definido de classes.
Os algoritmos de classificação extraem os modelos classificadores a partir de
base de dados em que cada registro tenha o formato (x,y):
Oferta válida para todos os planos durante o mês de dezembro
+3 MESES
Grátis
Veja os resultado dos nossos alunos
Conquistas reais de quem está aplicando o método
<Perguntas frequentes>
Carreira
Por onde devo iniciar os estudos?
Recomendamos começar pelo Plano de Estudo Carreira Programador Front-End. Essa área da programação é mais visual e intuitiva, tornando-a ideal para iniciantes. No Front-End, você aprenderá a criar a parte visual dos sites, como layout, cores e interatividade. Depois de dominar o Front-End, você pode avançar para Programador Back-End, onde aprenderá a lidar com a lógica e o funcionamento interno dos sites, e, finalmente, para Programador Mobile, focando no desenvolvimento de aplicativos para smartphones. Nossa metodologia é estruturada de forma progressiva para garantir que você desenvolva confiança e experiência ao criar projetos reais, como sites estáticos e dinâmicos.
Em quanto tempo vou me tornar um programador?
O tempo necessário para se tornar um programador varia de acordo com a dedicação de cada estudante. Com nossa metodologia, que inclui um Plano de Estudo detalhado e suporte contínuo, você pode se tornar um programador de 6 meses a um ano, dependendo do seu ritmo e esforço. Nossa abordagem prática e orientada a projetos ajudará a acelerar seu aprendizado.
Eu preciso de um diploma de faculdade para começar a atuar como programador?
Não. Ser programador é uma excelente oportunidade para quem não possui diploma de faculdade. Muitas empresas contratam baseadas nas habilidades técnicas e experiência prática, não necessariamente em diplomas. Após conquistar uma vaga, você pode optar por complementar sua formação com um diploma.
Por que a programação se tornou a profissão mais promissora da atualidade?
A necessidade de programadores cresceu exponencialmente, especialmente após a pandemia de Covid-19, que forçou muitas empresas a se adaptarem ao digital. Com o crescimento das empresas de tecnologia, a demanda por programadores aumentou. Atualmente, há mais de 200 mil vagas abertas no Brasil devido à falta de profissionais qualificados.
Metodologia
Quais são os principais diferenciais da DevMedia?
Didática e Metodologia
Com mais de 20 anos de experiência, nossa metodologia foca em menos aulas e mais prática. Desenvolvemos dezenas de projetos e exercícios para ajudar você a se tornar um programador completo. Nossos projetos são desafiadores e autênticos, não apenas exercícios repetitivos.
Projetos reais e exercícios
Você desenvolverá diversos projetos práticos em cada carreira (Front-End, Back-End e Mobile), recebendo mentoria e suporte contínuo. A prática é essencial, e oferecemos milhares de exercícios para ajudar você a fixar o conteúdo e melhorar sua posição no ranking.
Suporte ao aluno
Nossa plataforma oferece suporte dedicado com professores experientes, respondendo suas dúvidas em menos de uma hora. Isso garante que você receba a ajuda necessária durante toda a sua jornada de aprendizado.
Gamificação
A DevMedia utiliza gamificação para tornar o aprendizado mais envolvente e motivador. Você acumula pontos e moedas por acertos, que podem ser trocados por produtos e customizações no seu card pessoal. Além disso, o sistema de ranking mensal incentiva a competição amigável e a melhoria contínua.
O que eu irei aprender estudando pela DevMedia?
Ao estudar conosco, você se tornará um programador Full Stack, dominando Front-End, Back-End e Mobile. Utilizamos a linguagem JavaScript, a mais utilizada no mercado, preparando você para criar sistemas webs e aplicativos celulares. Nossa abordagem prática inclui exercícios para fixar o conhecimento e desenvolvimento de projetos reais que te preparam, para o mercado de trabalho.
Quais as vantagens de aprender programação através da linguagem JavaScript?
Ela é Multiplataforma, ela vai te permitir programar para web e para celulares utilizando praticamente a mesma sintaxe.
Elá é Full Stack. Ela te permite criar aplicações Front-end, Back-end e Mobile. Isso acelera muito sua carreira e aumenta suas possibilidades de pegar trabalhos autônomos e conquistar uma vaga no mercado.
Ela é fácil de aprender. Como ela não exige conhecimento inicial em “Orientação a Objetos” ela se torna mais simples com uma curva de aprendizado suave e vai te permitir começar a programar mais rápido do que outras linguagens
A plataforma oferece certificados?
Sim, oferecemos dois tipos de certificados: o certificado de conclusão, que você adquire ao consumir o conteúdo, e o certificado de autoridade, que você obtém ao acertar exercícios. Ambos possuem carga horária, que pode ser utilizada para fins acadêmicos, como atividades complementares na faculdade, e também para comprovações em processos seletivos ou no seu currículo.
A plataforma tem suporte ao aluno, como funciona?
Sim, temos uma equipe de programadores pronta para ajudar com todas as suas dúvidas! Durante o horário comercial, o tempo médio de resposta é de até 10 minutos. E não se preocupe, também oferecemos suporte à noite e nos finais de semana, com um prazo de resposta um pouco maior.
A DevMedia me forma como programador Full Stack?
Sim! Oferecemos uma formação completa, do zero até Full Stack. Nosso foco é na prática, então você vai encontrar muitos exercícios e projetos reais ao longo do curso. Garantimos que você sairá com a autonomia necessária para desenvolver seus próprios projetos com confiança!
Tem horário para as aulas?
Não, não temos horários fixos para as aulas. Todo o nosso conteúdo está disponível para você acessar a qualquer momento, permitindo que você estude conforme sua própria disponibilidade e ritmo. Dessa forma, você pode integrar o aprendizado à sua rotina de maneira mais flexível e eficaz.
Por que a DevMedia não usa videoaulas em sua didática?
Nosso foco principal é formar programadores de verdade. Sabemos que o dia a dia de um programador envolve muita leitura, interpretação e escrita de código. Por isso, nosso conteúdo é desenvolvido para ambientar você nesse processo desde o início, proporcionando mais autonomia e acelerando seu aprendizado.
Na vídeo-aula é o professor que está lendo, interpretando e escrevndo o código para você, isso limita o seu progresso. Ao ler e interagir diretamente com o conteúdo, você exercita sua capacidade de leitura e concentração, além de poder avançar no seu próprio ritmo. Dessa forma, você se torna um programador mais independente e preparado para os desafios reais do mercado.
Preciso de um computador específico para estudar na DevMedia?
Não é necessário nada específico. Qualquer computador com processador atual e memória de 8 GB é suficiente.
Eu consigo estudar pelo celular?
Sim, a DevMedia possui um aplicativo que te permite seguir com seus estudos de qualquer lugar.
A DevMedia tem aplicativo?
Sim, nosso aplicativo está disponível na Play Store e na Apple Store, permitindo que você estude de forma prática e conveniente em qualquer lugar.
Preciso estar na faculdade para acompanhar os estudos na DevMedia?
Não, a faculdade não é necessária. Você não precisa de nenhum conhecimento prévio para iniciar os estudos na nossa plataforma.
Assinatura e Pagamentos
Quais são os planos de assinatura disponíveis?
Oferecemos o plano anual, o valor total é lançado no cartão de crédito, parcelado em 12 vezes, e você precisa dispor do valor total no limite do seu cartão. Você também pode optar por pagar no PIX
Adquirindo o plano, terei acesso a todo o conteúdo?
Sim, ao assinar nossa plataforma, você desbloqueia acesso total a todo o nosso conteúdo, sem precisar comprar nada separadamente.
A plataforma tem planos vitalícios?
Não, nossos planos são anuais, garantindo que você tenha acesso contínuo às atualizações mais recentes e aos novos conteúdos. A tecnologia evolui rapidamente, e um plano vitalício oferece um conteúdo estático que se tornará ultrapassado em pouco tempo. Com nossos planos anuais, você está sempre à frente, aprendendo as novidades e tendências mais atuais no mundo da programação.
A DevMedia tem fidelidade?
Sim, nosso plano tem uma fidelidade de 12 meses, o que garante o tempo ideal para você explorar nosso conteúdo e desenvolver a autonomia necessária para trabalhar com programação.
Como funciona o cancelamento?
Nós garantimos seu direito de cancelamento com reembolso total dentro dos primeiros 7 dias.
Para que você aproveite ao máximo seu investimento, oferecemos suporte personalizado para orientá-lo na utilização da plataforma. Também temos a opção de transferência de titularidade do plano, permitindo que outra pessoa aproveite o restante do seu período de assinatura.
Cadastro
Como excluir meus dados da plataforma?
Para excluir seus dados da plataforma, acesse o link : https://www.devmedia.com.br/fale-conosco/ e abra um protocolo de 'Exclusão de dados'. Nossa equipe processará a solicitação e removerá todas as informações do seu cadastro.
Compartilhe esse conteúdo com um amigo!
Faça login para ganhar recompensas.
Ou
Utilizamos cookies para fornecer uma melhor experiência para nossos usuários, consulte nossa política de privacidade.