O que você aprenderá sobre Machine Learning no SQL Server?

Este artigo é útil para profissionais que trabalham com análise avançada de dados e que queiram utilizar a plataforma do SQL Server como ferramenta para o desenvolvimento de modelos de aprendizado de máquina. É fornecido uma visão geral sobre a área de aprendizagem de máquina, como suas principais divisões e aplicações. O objetivo deste artigo é demostrar como um modelo de aprendizado de máquina pode ser operacionalizado dentro do SQL Server 2016. Na parte prática é implementado um exemplo de classificação binária que utiliza um conjunto de dados público para diagnosticar diabetes.
Autores: Amauri Mendes e Weslley Moura

A todo momento novos serviços web e aplicativos são criados para facilitar nossas atividades do dia a dia, desde monitorar uma corrida no seu parque favorito até comprar aquela pizza de sempre sem sair de casa. Esses aplicativos podem até ser diferentes em termos de ofertas de serviços, mas todos têm um ponto em comum: eles possuem informações detalhadas sobre os seus usuários, suas preferências, rotina, ações e interesses.

Quando as empresas perceberam que essas informações poderiam ser utilizadas para alavancar seus negócios, deu-se início a uma incansável busca por cada vez mais dados (independe do formato) e tecnologias para processá-los. Foi nesse cenário que o termo big data surgiu, fazendo analogia à grande quantidade de informações que vinham sendo criadas. Na prática, esse termo foi desdobrado em diversas tecnologias, metodologias, ferramentas e técnicas relacionadas ao processamento de dados. Assuntos como “estatística” e “aprendizado de máquina” passaram a ter grande relevância nesse cenário, já que podem auxiliar na interpretação dos dados.

De fato, muitas descobertas e novas abordagens vêm sendo criadas dentro desses temas, mas não se pode omitir que há anos os negócios já vêm se beneficiando com suas aplicações. Estamos falando de potencialização de uso por meio de novas informações.

Todos esses dados são armazenados, organizados e processados para que seja possível identificar padrões de comportamento que serão usados para diversas finalidades, entre elas: criação de ofertas de produtos ou serviços personalizados, identificação de anomalias ou atividades atípicas nos dados que justifiquem uma investigação contra fraude, identificação de probabilidades de compra para ofertas de up-sell e cross-sell, entre outras. As pessoas que estão à frente dessas análises vêm sendo chamadas de cientistas de dados ou analista de dados.

Esses profissionais são responsáveis por interpretar os dados para que as decisões de negócio sejam tomadas, por exemplo, a criação de novos produtos e serviços, novas formas para abordar o cliente ou até mesmo segmentá-los. No entanto, interpretar os dados não é uma tarefa trivial, pois é completamente inviável analisá-los linha a linha para identificar padrões.

As competências desse profissional possuem intersecções entre algumas áreas: matemática/estatística, computação e negócios. Como consequência, temos o problema da escassez de mão de obra, pois não é fácil encontrar todas estas habilidades em uma única pessoa. A criação de um time multidisciplinar vem sendo a saída para driblar esse problema de mão de obra. O diagrama de Venn de Drew Conway (Figura 1) é uma boa representação das competênci ...

Quer ler esse conteúdo completo? Tenha acesso completo