Mineração de Dados usando KDD: Quantidade de dados

Minera��o de Dados usando KDD � Parte 1

Por que eu devo ler este artigo:A �rea de Minera��o de Dados Educacionais (MDE) est� orientada ao uso de t�cnicas de minera��o de dados em ambientes educacionais. As t�cnicas de minera��o de dados educacionais s�o projetadas a partir de diversas fontes de pesquisa, tais como intelig�ncia artificial, psicometria, estat�stica, visualiza��o da informa��o e modelagem computacional.

Neste cen�rio, o tema discutido neste artigo � �til uma vez que a quantidade de dados presente nas organiza��es nos dias atuais ultrapassou a capacidade humana de interpretar e compreender tanta informa��o. Para isso, � importante conhecer e saber como utilizar t�cnicas de minera��o de dados, em espec�fico, em ambientes educacionais.

Com a expans�o dos cursos � dist�ncia e tamb�m daqueles com suporte computacional, muitos profissionais t�m aplicado as t�cnicas de minera��o de dados para investigar quest�es como: quais s�o os fatores que afetam a aprendizagem? Ou como desenvolver sistemas educacionais mais eficazes?. Dentro deste contexto, tem-se a �rea conhecida como �Minera��o de Dados Educacionais�. A MDE tem como objetivo desenvolver m�todos para explorar conjuntos de dados coletados em ambientes educacionais. Compreender como os alunos aprendem, identificar em que situa��o um tipo de abordagem instrucional como (aprendizagem individual ou colaborativa) proporciona melhores benef�cios educacionais ao aluno. � poss�vel verificar tamb�m se o aluno est� desmotivado ou confuso e, assim, personalizar o ambiente e os m�todos de ensino para oferecer melhores condi��es de aprendizagem.

Os esfor�os em MDE est�o focados, principalmente, em tr�s �reas:

Desenvolver ferramentas e t�cnicas computacionais para definir que caracter�sticas incluir nos formul�rios de avalia��o da curva de aprendizado para tornar a MDE mais funcional e flex�vel;
Definir quais perguntas se deve fazer aos dados para obter as respostas �teis na minera��o dos dados educacionais;
Determinar quem s�o os interessados (stakeholders) que poderiam se beneficiar dos resultados obtidos nos relat�rios atrav�s das t�cnicas de MDE.

A utiliza��o de t�cnicas de minera��o de dados sobre dados educacionais � relativamente recente. A maioria dos trabalhos nesta �rea tem o objetivo de identificar resultados para explicar o sucesso ou insucesso acad�mico de cursos n�o presencial.

A partir de agora apresentaremos um estudo de caso do uso da minera��o de dados para a �rea educacional.

Estudo de caso de MDE

A partir da base de dados selecionada para o estudo de caso, foram seguidas todas as etapas do processo de KDD, ou seja, iniciou com pr�-processamento dos dados, realizou-se a transforma��o e enriquecimentos de alguns dados e aplicou-se a minera��o de dados. Em seguida, foi demonstrado o processo para o ETL (Extra��o e Transforma��o de carga), seguido da cria��o de um Data Mart.

Sele��o dos dados

Os dados utilizados neste trabalho foram provenientes de um question�rio s�cio econ�mico e cultural preenchidos no momento da inscri��o pelos candidatos aos processos seletivos dos anos de 2012 e 2013 do Instituto Federal de Educa��o, Ci�ncia e Tecnologia do Sul de Minas Gerais, Campus Muzambinho. Eles nunca haviam sido explorados para as atividades de Data Mining e encontravam-se armazenados nos servidores de banco de dados do N�cleo de Tecnologia da Informa��o (NTI).

Estes dados foram disponibilizados em duas planilhas com o formato .xls, conforme a Figura 1, uma referente ao ano de 2012 e a outra referente ao ano de 2013. Tal formato possui cabe�alhos na estrutura compat�vel para a importa��o das mesmas para o SQL Server 2008. Al�m destes dados, foram disponibilizados tamb�m alguns dados do cadastro geral dos candidatos, tais como: o sexo, a idade, a cidade e o total de pontos obtidos pelo candidato no vestibular.

**Figura 1.** Tela dos dados no formato .xls.

Pr�-Processamento dos Dados

Remo��o de Dados

Foram exclu�das da tabela as colunas inscri��o e data_nascimento. A coluna inscri��o foi exclu�da por possuir dados irrelevantes e a coluna data_nascimento por j� existir uma coluna semelhante que � a coluna idade. Tamb�m foram retirados alguns registros que possu�am idades erradas, tais como, (-52, 3, 1015, 2007, 1032, 1017, 1018, 2013, 1, 1016, 2). Com o comando:

DELETE FROM socio_econ2012 WHERE idade <='valor da idade que est� errada'

Foi possivel remover todas as idades inadequadas.

Padroniza��o dos Dados

Algumas cidades possu�am mais de uma forma de cadastro como, por exemplo: (Alpinopolis, Alpin�polis), (Conceicao da Aparecida, Concei�ao da Aparecida, Concei��o da Aparecida), (Divinolandia, Divinol�ndia), entre outras. Com o comando:

UPDATE socio_econ2012 SET cidade='altera��o_pretendida' WHERE cidade='condi��o'

Foi possivel padronizar os dados do atributo cidade.

Transforma��o e Adequa��o dos Dados

Os atributos das colunas idade, cidade, total pontos e curso foram transformados em conjuntos de dados com o objetivo de facilitar seu uso pelas t�cnicas de minera��o e enriquecer os resultados. As idades foram agrupadas da seguinte forma:

A) Menos de 17 anos
B) 17 anos
C) Entre 18 e 22 anos
D) Entre 23 e 30 anos
E) Entre 31 e 40 anos
F) Acima de 40 anos

Para que fosse poss�vel preservar os dados no banco e ter os conjuntos de idades propostos, foi inserida uma nova coluna na tabela do banco de dados com o seguinte comando:

ALTER TABLE socio_econ2012

ADD  nova_idade varchar(50)

Os dados foram transformados com os comandos apresentados na Listagem 1.

Listagem 1. Definindo os conjuntos de idades


UPDATE socio_econ2012 SET nova_idade='MENOR_17' WHERE idade < 17
UPDATE socio_econ2012 SET nova_idade='17_ANOS'  WHERE idade=17 
UPDATE socio_econ2012 SET nova_idade='ENTRE_18-22' 
  WHERE idade BETWEEN 18 AND 22
UPDATE socio_econ2012 SET nova_idade='ENTRE_23-30' 
  WHERE idade BETWEEN 23 AND 30
UPDATE socio_econ2012 SET nova_idade='ENTRE_31-40' 
  WHERE idade BETWEEN 31 AND 40
UPDATE socio_econ2012 SET nova_idade='ACIMA_40' 
  WHERE idade > 40

No atributo cidades, a transforma��o dos dados come�ou pela atribui��o das respectivas quilometragens de cada cidade em rela��o � cidade de Muzambinho-MG. Para realizar esta tarefa foi utilizado o Google Maps. O objetivo era obter informa��es mais precisas em rela��o aos candidatos, e a partir destas informa��es, comparar o perfil dos candidatos que moram perto com os que moram longe do IFSULDEMINAS C�mpus Muzambinho (ver Tabela 1).

Rela��o das cidades com suas respectivas
quilometragens — **Tabela 1**. Rela��o das cidades com suas respectivas quilometragens.

Com o comando SQL:

ALTER TABLE socio_econ2012 ADD km_cidade float

Criou-se uma nova coluna na tabela do banco de dados para receber a quantidade de quil�metro entre Muzambinho e a cidade de origem do candidato.

Os dados foram alterados no banco de dados com o comando:

UPDATE socio_econ2012 SET km_cidade='quantidade em quil�metro' WHERE cidade='nome da cidade'

Al�m disso, com o comando:

ALTER TABLE socio_econ2012 ADD classe_cidade varchar(50)

Criou-se tamb�m uma nova coluna na tabela do banco de dados para guardar as classes das cidades, como especificadas abaixo:

a) Em Muzambinho
b) At� 50km de Muzambinho
c) Entre 50 e 100km de Muzambinho
d) Entre 100 e 150km de Muzambinho
e) Entre 150 e 200km de Muzambinho
f) Acima de 200km de Muzambinho

Os dados foram transformados conforme a Listagem 2.

Listagem 2. Definindo as dist�ncias.


UPDATE socio_econ2012 SET classe_cidade='EM_MUZAMBINHO' 
  WHERE km_cidade='LOCAL'
UPDATE socio_econ2012 SET classe_cidade='ATE_50KM_MUZAMBINHO' 
  WHERE km_cidade < 50
UPDATE socio_econ2012 SET classe_cidade='ENTRE_50KM-100KM_MUZAMBINHO' 
  WHERE km_cidade BETWEEN 50 AND 100
UPDATE socio_econ2012 SET classe_cidade='ENTRE_100KM-150KM_MUZAMBINHO' 
  WHERE km_cidade BETWEEN 100.1 AND 150
UPDATE socio_econ2012 SET classe_cidade='ENTRE_150KM-200KM_MUZAMBINHO' 
  WHERE km_cidade BETWEEN 150.1 AND 200
UPDATE socio_econ2012 SET classe_cidade='ACIMA_200KM_MUZAMBINHO' 
  WHERE km_cidade > 200

E para finalizar a transforma��o e adequa��o dos dados, foi criado uma nova coluna:

ALTER TABLE socio_econ2012 ADD classe_pontos varchar(50)

Para receber as classes atribu�das para o total de pontos dos candidatos, como mostrado a seguir:

a) Menos de 20 pontos no vestibular
b) Entre 20 e 40 pontos no vestibular
c) Entre 40 e 60 pontos no vestibular
d) Entre 60 e 80 pontos no vestibular
e) Acima de 80 pontos no vestibular

s dados foram transformados conforme Listagem 3.

Listagem 3. Definindo a classifica��o por pontos.


UPDATE socio_econ2012 SET classe_pontos='MENOS_20_PONTOS' 
  WHERE total_pontos < 20.0
UPDATE socio_econ2012 SET classe_pontos='ENTRE_20-40_PONTOS' 
  WHERE total_pontos BETWEEN 20.0 AND 40.0
UPDATE socio_econ2012 SET classe_pontos='ENTRE_40-60_PONTOS' 
  WHERE total_pontos BETWEEN 40.1 AND 60.0
UPDATE socio_econ2012 SET classe_pontos='ENTRE_60-80_PONTOS' 
  WHERE total_pontos BETWEEN 60.1 AND 80.0
UPDATE socio_econ2012 SET classe_pontos='ACIMA_80_PONTOS' 
  WHERE total_pontos > 80.0

Para transformar o atributo curso, criou-se primeiramente uma coluna para receber o nome de cada curso como: Engenharia Agron�mica, Ci�ncia da Computa��o, Inform�tica, Ci�ncias Biol�gicas, entre outros. Os dados foram transformados de acordo com a Listagem 4.

Listagem 4. Definindo os cursos.


ALTER TABLE socio_econ2012 ADD nome_curso varchar(50)
UPDATE socio_econ2012 SET nome_curso='ENGENHARIA AGRON�MICA' 
  WHERE curso='ENGENHARIA AGRON�MICA'
UPDATE socio_econ2012 SET 
  nome_curso='ENSINO M�DIO E T�CNICO EM AGROPECU�RIA INTEGRADO' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET nome_curso='INFORM�TICA' 
  WHERE curso='T�CNICO EM INFORM�TICA - NOTURNO'
UPDATE socio_econ2012 SET nome_curso='AGROPECU�RIA'
  WHERE curso='T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET nome_curso='CI�NCIA DA COMPUTA��O' 
  WHERE curso='CI�NCIA DA COMPUTA��O - BACHARELADO'
UPDATE socio_econ2012 SET
   nome_curso='ENSINO M�DIO E T�CNICO EM INFORM�TICA' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM INFORM�TICA'
UPDATE socio_econ2012 SET nome_curso='CI�NCIAS BIOL�GICAS' 
  WHERE curso='CI�NCIAS BIOL�GICAS - LICENCIATURA'
UPDATE socio_econ2012 SET nome_curso='EDUCA��O F�SICA' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - VESPERTINO'
UPDATE socio_econ2012 SET nome_curso='EDUCA��O F�SICA' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - NOTURNO'
UPDATE socio_econ2012 SET nome_curso='MEIO AMBIENTE' 
   WHERE curso='T�CNICO EM  MEIO AMBIENTE'
UPDATE socio_econ2012 SET nome_curso='ENFERMAGEM' 
  WHERE curso='T�CNICO EM ENFERMAGEM - NOTURNO'
UPDATE socio_econ2012 SET nome_curso='EDUCACAO F�SICA' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - NOTURNO'
UPDATE socio_econ2012 SET 
  nome_curso='ENSINO M�DIO E T�CNICO EM ALIMENTOS' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM ALIMENTOS'
UPDATE socio_econ2012 SET nome_curso='SEGURAN�A DO TRABALHO' 
  WHERE curso='T�CNICO EM SEGURAN�A DO TRABALHO'
UPDATE socio_econ2012 SET nome_curso='EDUCA��O F�SICA' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - VESPERTINO'
UPDATE socio_econ2012 SET nome_curso='INFORM�TICA' 
  WHERE curso='T�CNICO EM INFORM�TICA - VESPERTINO'

Al�m disso, criou-se outra coluna para receber os per�odos, como: Noturno, Vespertino, Integral. Para isso, os dados foram transformados de acordo com a Listagem 5.

Listagem 5. Defini��o dos per�odos.


ALTER TABLE socio_econ2012 ADD periodo_curso varchar(50) 
UPDATE socio_econ2012 SET periodo_curso='INTEGRAL' 
  WHERE curso='ENGENHARIA AGRON�MICA'
UPDATE socio_econ2012 SET periodo_curso='INTEGRAL' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='T�CNICO EM INFORM�TICA - NOTURNO'
UPDATE socio_econ2012 SET periodo_curso='INTEGRAL' 
 WHERE curso='T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='CI�NCIA DA COMPUTA��O - BACHARELADO'
UPDATE socio_econ2012 SET periodo_curso='INTEGRAL' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM INFORM�TICA'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='CI�NCIAS BIOL�GICAS - LICENCIATURA'
UPDATE socio_econ2012 SET periodo_curso='VESPERTINO' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - VESPERTINO'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - NOTURNO'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='T�CNICO EM  MEIO AMBIENTE'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='T�CNICO EM ENFERMAGEM - NOTURNO'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - NOTURNO'
UPDATE socio_econ2012 SET periodo_curso='INTEGRAL' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM ALIMENTOS'
UPDATE socio_econ2012 SET periodo_curso='NOTURNO' 
  WHERE curso='T�CNICO EM SEGURAN�A DO TRABALHO'
UPDATE socio_econ2012 SET periodo_curso='VESPERTINO' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - VESPERTINO'
UPDATE socio_econ2012 SET periodo_curso='VESPERTINO' 
  WHERE curso='T�CNICO EM INFORM�TICA - VESPERTINO'

Por fim, criou-se mais uma coluna para receber o grau do curso: Superior e T�cnico. Os dados foram transformados segundo a Listagem 6.

Listagem 6. Defini��o do grau dos cursos.


ALTER TABLE socio_econ2012 ADD grau_curso varchar(50) 
UPDATE socio_econ2012 SET grau_curso='SUPERIOR' 
  WHERE curso='ENGENHARIA AGRON�MICA'
UPDATE socio_econ2012 SET grau_curso='ENSINO M�DIO E T�CNICO' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM INFORM�TICA - NOTURNO'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM AGROPECU�RIA'
UPDATE socio_econ2012 SET grau_curso='SUPERIOR' 
  WHERE curso='CI�NCIA DA COMPUTA��O - BACHARELADO'
UPDATE socio_econ2012 SET grau_curso='ENSINO M�DIO E T�CNICO' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM INFORM�TICA'
UPDATE socio_econ2012 SET grau_curso='LICENCIATURA' 
  WHERE curso='CI�NCIAS BIOL�GICAS - LICENCIATURA'
UPDATE socio_econ2012 SET grau_curso='LICENCIATURA' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - VESPERTINO'
UPDATE socio_econ2012 SET grau_curso='BACHARELADO' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - NOTURNO'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM  MEIO AMBIENTE'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM ENFERMAGEM - NOTURNO'
UPDATE socio_econ2012 SET grau_curso='LICENCIATURA' 
  WHERE curso='EDUCA��O F�SICA - LICENCIATURA - NOTURNO'
UPDATE socio_econ2012 SET grau_curso='ENSINO M�DIO E T�CNICO' 
  WHERE curso='ENSINO M�DIO E T�CNICO EM ALIMENTOS'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM SEGURAN�A DO TRABALHO'
UPDATE socio_econ2012 SET grau_curso='BACHARELADO' 
  WHERE curso='EDUCA��O F�SICA - BACHARELADO - VESPERTINO'
UPDATE socio_econ2012 SET grau_curso='T�CNICO' 
  WHERE curso='T�CNICO EM INFORM�TICA - VESPERTINO'

Com as tabelas criadas e devidamente modificadas, foi finalizado o processo de pr�-processamento. A partir dessa etapa, iniciou-se o uso da ferramenta Weka para a minera��o dos dados.

Minera��o de Dados

Importando os dados

Para iniciar o uso da ferramenta Weka, primeiramente deve-se escolher a op��o de uso na tela inicial. Escolheu-se, para este artigo, a op��o Explorer que permite obter os dados por quatro formas: Open file, Open URL, Open BD ou Generate. Para essa aplica��o foi usada a op��o Open BD, que permitiu o acesso aos dados diretamente no banco.

Ap�s escolhida a op��o Open BD, � aberta uma nova janela com as op��es de conex�o com o banco. Deve ser informada a URL do banco ao qual ser� feita a conex�o. Por padr�o, aparece no campo URL o endere�o: �jdbc:idb=experiments.prp�. Por�m, com esta op��o n�o foi poss�vel conectar-se ao banco. Foi necess�ria a modifica��o no arquivo de fonte de dados de sistema no administrador de fonte de dados ODBC, que se encontra no menu Ferramentas Administrativas, no painel de controle do Windows. Esta modifica��o � uma etapa importante, pois � por meio dela que se torna poss�vel a conex�o entre a ferramenta Weka e o SQL Server.

Nessa op��o � configurada uma nova fonte de dados de sistema. Foi utilizado o Windows 8, com 4 GB de mem�ria e processador Core i3. A seguir, ser� descrito um passo a passo da configura��o.

Inicialmente acesse a Fonte de dados ODBC, digitando na tela inicial -> PAINEL DE CONTROLE, e logo ap�s clicando em -> FERREMENTAS ADMINSTRATIVAS. Feito isso, escolha a aba Fonte de dados de sistema, clique em adicionar, e escolha a op��o que melhor se encaixar no BD utilizado. No caso deste artigo, a op��o � SQL Server. Depois, clique em Concluir.

Na janela que aparecer�, coloque o nome da fonte de dados no campo Nome. O campo Descri��o � opcional. Em seguida, adicione o caminho do servidor (o mesmo servidor utilizado no banco de dados), conforme est� apresentado na Figura 2. Clique em Avan�ar para continuar a configura��o.

**Figura 2.** Criando uma nova fonte de dados ODBC.

Na pr�xima janela, selecione a op��o �Com autentica��o do SQL Server usando ID de logon e senha inseridos pelo usu�rio.�, adicione o ID de logon e senha (o mesmo usu�rio e senha utilizados no banco de dados). Clique em Avan�ar para continuar a configura��o.

Agora selecione a op��o �Alterar o banco de dados padr�o para:� e escolha o banco no qual est� a tabela dos dados que ser�o minerados. No caso deste artigo, a op��o � Questionario. Depois, clique em Avan�ar. Na pr�xima janela, nenhuma altera��o foi feita. Apenas, clique em Concluir. Na sequ�ncia, ser�o apresentadas todas as configura��o de instala��o da nova fonte de dados ODBC que esta sendo criada. Clique em Testar fonte de dados. Tendo o teste sido realizado com sucesso, clique na op��o Ok para finalizar o processo.

Ao voltar � ferramenta Weka, � poss�vel fazer a conex�o com o banco, utilizando o endere�o jdbc:odbc:tcc. Clique em User e informe o Usu�rio e senha. Logo ap�s clique no bot�o Connect to data base. Aparecer� uma mensagem no campo Info informando que a conex�o foi feita.

No campo Query � informado o comando para uso dos dados no banco. No caso, um SELECT, para trazer todos os dados da tabela. Em seguida, clique em Execute e os dados aparecer�o no campo Result. Para usar os dados no Weka, selecione a op��o um OK (Figura 3).

**Figura 3.** Tela com os dados do Banco de Dados.

Trabalhando os dados

Com os dados na ferramenta, j� � poss�vel trat�-los para o uso adequado do algoritmo escolhido. A tela apresenta as informa��es dos dados separados por algumas se��es como veremos a partir de agora.

Na se��o Attributes, s�o descriminados todos os atributos do banco. A janela destacada atrav�s da Figura 4 apresenta os bot�es para que se possam trabalhar tais atributos. S�o eles:

ALL: seleciona todos os atributos;
NONE: desmarca a sele��o dos atributos selecionados;
INVERTE: inverte a sele��o dos atributos, os que est�o marcados passam a n�o ficarem mais marcados, e os n�os marcados ficam com a marca��o;
PATTERN: habilita o usu�rio a selecionar atributos baseados em express�es regulares;
REMOVE: remove os itens selecionados.

**Figura 4.** Ferramenta Weka ap�s a importa��o dos dados do SQL Server.

J� a se��o current relation mostra as informa��es da rela��o atual dos dados. Nela pode-se observar o nome do arquivo que ser� minerado (atrav�s do atributo Relation), o n�mero de inst�ncias que ser�o analisadas neste arquivo (pelo atributo Instances) e o n�mero de atributos analisados (pelo atributo Attributes).

Existe tamb�m a se��o Selected atribute, que mostra os detalhes do atributo selecionado na janela Attributes. Nela encontram-se informa��es como (ver Figura 5):

Name: o nome do atributo selecionado;
Type: tipo do atributo, que normalmente � nominal ou num�rico;
Missing: o n�mero ou porcentagem de inst�ncias, para este atributo, que n�o foram especificadas;
Distinct: o n�mero de valores distintos para este atributo;
Unique: especifica o n�mero ou porcentagem de inst�ncias �nicas, ou seja, valores que nenhuma outra inst�ncia possui.

Janela de atributo
do tipo num�rico selecionado — **Figura 5.** Janela de atributo do tipo num�rico selecionado.

Os valores estat�sticos presentes nesta janela dependem do tipo do atributo. Se ele for num�rico como no exemplo da Figura 5, os valores especificados s�o: minimum (m�nimo), maximum (m�ximo), mean (m�dia) e StdDev (desvio padr�o). Se for nominal, como no exemplo da Figura 6, a lista conter� os valores permitidos para o atributo e suas respectivas quantidades.

A seguir, � apresentada a janela com a classe selecionada para an�lise. Por padr�o, ela estar� com o �ltimo atributo da janela de atributos. Por�m, pode ser mudado a qualquer momento. Juntamente, � mostrado um gr�fico em que o atributo selecionado e classe escolhida s�o os mesmos. O atributo escolhido para esta demonstra��o foi o grau de escolaridade do candidato, o qual possui tr�s op��es de respostas: Fundamental, M�dio Completo, e M�dio Incompleto. Sendo assim, cada cor e cada coluna representam as op��es de resposta do atributo em quest�o e quantidade de reposta que cada uma obteve. Neste caso, a cor azul escuro est� representando o M�dio Completo, que foi a op��o escolhida por 723 candidatos; o vermelho est� representando o Fundamental, op��o escolhida por 382 candidatos e, por �ltimo a cor azul claro, que representa o M�dio Incompleto, sendo a op��o de 201 candidatos (ver Figura 7).

Gr�fico representado pelo mesmo atributo e classe (grau de escolaridade do
candidato) — **Figura 7.** Gr�fico representado pelo mesmo atributo e classe (grau de escolaridade do candidato)

No exemplo da Figura 8, o atributo selecionado continuou sendo o grau de escolaridade, por�m a classe agora � referente ao sexo do candidato. Podemos notar que a ferramenta Weka representa atrav�s do gr�fico a rela��o que existe entre o atributo e classe selecionada. As tr�s colunas agora possuem as mesmas cores, por�m com n�vel diferente, onde o azul representa o sexo masculino e vermelho o sexo feminino.

Gr�fico representado por atributo e classe diferente, sendo o atributo grau de
escolaridade e a classe sexo — **Figura 8.** Gr�fico representado por atributo e classe diferente, sendo o atributo grau de escolaridade e a classe sexo.

Como os dados v�m diretamente do banco, � necess�rio, para uso de alguns algoritmos, modificar seu tipo de atributo. Essa modifica��o pode ser feita atrav�s da guia Filter do Weka.

Depois de feitas as modifica��es, � interessante salvar os dados no formato .ARFF, padr�o utilizado pela ferramenta Weka. Para isso, basta clicar no bot�o Salvar da janela principal.

Usando Associa��o

Foi utilizado o algoritmo Apriori para obter as regras de associa��o dos dados informados. O uso desse algoritmo na ferramenta Weka d�-se utilizando os passos a seguir. Inicialmente clica-se na guia Associate. Na janela Associator na op��o Choose, escolha Apriori (se a op��o Apriori n�o estiver dispon�vel, � sinal que o tipo de atributo deve ser mudado).

A ferramenta Weka oferece a op��o de alterar os par�metros para minera��o. Para isso, basta um duplo clique na descri��o do Apriori e ser� aberta uma nova janela, com os campos a serem modificados. Para esse trabalho, modificaremos somente os campos (ver Figura 9):

lowerBoundMinSupport - � o limite para o suporte m�nimo. S�o consideradas apenas regras com contagens mais altas que o valor estabelecido neste campo. Suporte de um itemset � definido como sendo a porcentagem de transa��es onde este itemset aparece;
minMetric - pontua��o m�nima m�trica. Devem-se considerar apenas regras com confian�a superiores a este valor. A toda regra de associa��o A -> B associamos um grau de confian�a, denotado por conf(A -> B). Este grau de confian�a � a porcentagem das transa��es que suportam B dentre todas as transa��es que suportam A;
numRules - n�mero de regras � encontrar.

Tela
para altera��o de par�metros considerados na execu��o do algoritmo Apriori para
regras de Associa��o — **Figura 9.** Tela para altera��o de par�metros considerados na execu��o do algoritmo Apriori para regras de Associa��o.

Foi escolhida a seguinte classifica��o para essa demonstra��o:

lowerBoundMinSupport: 0.1 (10%);
minMetric: 0.5 (50%);
numRules: 100.

Estas configura��es variar�o de uma regra para outra. Como as caracter�sticas dos candidatos em geral s�o bem diversificadas, para que fosse poss�vel analisar um conjunto razo�vel de regras, foi necess�rio estabelecer um suporte m�nimo baixo.

Feito isso, selecione a op��o Start para que seja iniciado o algoritmo.

As regras s�o geradas no seguinte formato:

internet=Diariamente classe_pontos=ENTRE_60-80_PONTOS 145 ==> micro=Tem em casa e usa regularmente 135 conf:(0.93)

O s�mbolo ==> faz a divis�o entre o antecedente e o consequente. O n�mero que aparece antes do s�mbolo ==> indica o suporte da regra, neste caso � o 145. O n�mero que aparece no final da regra indica quantas vezes o consequente aparece para cada ocorr�ncia do antecedente, ou seja, 135. E o n�mero final, entre par�nteses, � o valor da confian�a, que � calculado a partir das transa��es em comum, ou seja, 135/145= 0,93, representando 93%.

P�s-Processamento

Interpreta��o

Nessa etapa, � importante a vis�o do especialista no dom�nio, ou seja, pessoas que conhecem o assunto no qual est� sendo aplicado o KDD. Geralmente, s�o pessoas interessadas em identificar novos conhecimentos que possam ser utilizados em sua �rea de atua��o. Costumam deter o chamado conhecimento pr�vio sobre o problema. As informa��es prestadas pelas pessoas deste grupo s�o de fundamental import�ncia no processo de KDD, pois influenciam desde a defini��o dos objetivos do processo at� a avalia��o dos resultados.

Algumas quest�es foram levantadas diante do problema em quest�o, que � delinear o perfil do candidato, como por exemplo:

Qual o motivo que leva o candidato a preencher a inscri��o para o processo seletivo e n�o efetuar o pagamento, ou ent�o pagar mas n�o comparecer no dia do vestibular? Essa � uma situa��o preocupante, pois uma quantidade razo�vel de inscritos se encaixa nesse item.
Dentro do curso, qual �rea especifica influencia mais o aluno e que poder� futuramente gerar novos cursos de p�s-gradua��o ou at� mesmo novos cursos de gradua��o?
Qual o objetivo dos candidatos que j� fizeram v�rios cursos dentro do IFSULDEMINAS?
Qual a vis�o das pessoas (comunidade em geral) diante do IFSULDEMINAS?
Como mudar a cultura do aluno, ou seja, como faz�-lo se interessar pelo lado empreendedor?
Os alunos que est�o no ensino m�dio procuraram o IFSULDEMINAS por causa do ensino m�dio, do t�cnico, ou pela possibilidade de cursar os dois paralelamente?
Qual o principal motivo em rela��o �s dificuldades encontradas nas mat�rias pelos alunos? O aluno sabe estudar? Como o aluno aprende?
Qual a vis�o dos egressos diante do IFSULDEMINAS, o curso respondeu as expectativas diante do mercado de trabalho?
Quais motivos levam os alunos � evas�o?

Cria��o de um Data Mart

Como visto anteriormente, � poss�vel utilizar-se do pr�prio modelo transacional (banco de dados usado para capturar as informa��es dos candidatos ao processo seletivo) para analisar os dados e transform�-los em informa��es �teis, por�m existe uma maneira mais indicada de se armazenar os dados antes de iniciar o processo de busca das informa��es.

Trata-se da cria��o de um Data Mart, que organiza melhor os dados e traz maior velocidade de acesso as informa��es, possibilitando consolidar os dados de forma que eles prestem informa��es para os n�veis gerencial e estrat�gico do negocio em quest�o; ou seja, passa a disponibilizar dados hist�ricos, de forma a viabilizar consultas, descoberta de tend�ncias e an�lises a partir dos dados. Al�m disso, evita a perda de performance no processo operacional da empresa, pois os dados est�o sendo analisados em um reposit�rio separado.

Foi utilizado o modelo estrela para a cria��o dessa estrutura. Este modelo possui uma tabela chamada fato no centro do modelo e algumas tabelas de dimens�es. A tabela fato possui a chave estrangeira de todas as dimens�es, conforme a Figura 10.

Foram constru�das seis dimens�es:

DimCandidato;
DimCurso;
DimMatricula;
DimCidade;
DimQuestionario;
DimTempo.

A dimens�o DimQuestionario � a principal, nela est�o contidos os 31 atributos referentes �s perguntas do question�rio s�cio econ�mico. A dimens�o DimCandidato possui os dados pessoais de cada candidato e o pontos obtidos no vestibular. A Dim Curso possui o nome do curso, o per�odo (noturno, vespertino, integral) e o grau (superior, t�cnico, ensino m�dio e t�cnico integrado) . A DimMatricula possui o status da matr�cula do candidato, ou seja, se ele ainda est� cursando, se est� com a matr�cula trancada, se desistiu do curso, entre outros. A DimCidade possui o nome da cidade dos candidatos, a dist�ncia em km de cada cidade at� Muzambinho, e a classe de pontos entre as cidades envolvidas. A DimTempo possui o ano e o semestre do Processo seletivo. E a tabela fato possui rela��o com todas as demais tabela do Data Mart.

O Integration Services, presente no pacote de aplicativos do SQL Server 2008, permite que os dados de um banco de dados sejam transferidos para outra fonte de dados.
O fluxo de controle � respons�vel pelo fluxo de tarefas do ETL (Extract Transform and Load), isto �, realizar a extra��o dos dados armazenados no banco de dados transacional e inseri-los no modelo estrela. No fluxo de controle, arraste o item Tarefas do Fluxo de Dados, conforme a Figura 11.

Adicionando
itens no Controle de Fluxo — **Figura 11.** Adicionando itens no Controle de Fluxo.

Clicando duas vezes no nome do objeto, � poss�vel renomear a Tarefa de Fluxo de Dados. Foi necess�rio criar sete Tarefas de Fluxo de Dados, seis para as dimens�es e uma para a tabela fato, conforme a Figura 12. As sete Tarefas de Fluxo de Dados criadas foram:

Import Candidato;
Import Curso;
Import Cidade;
Import Matricula;
Import Questionario;
Import Tempo;
Import Fato.

Fluxo de Controle
com as Tarefas de Fluxo de Dados necess�rias — **Figura 12.** Fluxo de Controle com as Tarefas de Fluxo de Dados necess�rias.

J� o Fluxo de Dados � respons�vel por extrair dados e realizar sua transforma��o para dar carga em tabelas destino. Para que seja poss�vel dar carga nas tabelas do modelo estrela, entre no modo de edi��o do Fluxo de Dadosda Tarefa �Import Candidatos�. Arraste o item Origem OLE DB conforme Figura 13. Esse componente ser� usado para conectar a base de dados transacional. Essa base cont�m os dados do question�rio s�cio econ�mico que est�o sendo usados no projeto.

**Figura 13.** Adicionando a Origem OLE DB no Fluxo de Dados.

O �x� em vermelho que aparece na Origem OLE DB (Figura 13) � porque ainda n�o foi realizada a conex�o e, portanto, o componente sinaliza que alguma coisa est� errada. Para resolver esta quest�o, basta clicar duas vezes em Origem OLE DB para acessar o editor de origem, em seguida clicar em Novo para configurar uma nova conex�o.

Preencha os dados do servidor (Server name, username, e senha) e em seguida selecione o esquema do banco de dados, neste caso �Questionario� e clique em OK.

Em Gerenciador de Conex�es � poss�vel escolher o modo de acesso aos dados, que podem ser provenientes de uma tabela ou exibi��o, ou um comando SQL. Selecione Tabela ou exibi��o. No campo �Nome da Tabela ou exibi��o�, selecione o nome da tabela no qual possui os dados de origem.

Na aba coluna, ser�o exibidos todos os campos da tabela selecionada. Deixe selecionados apenas os campos que ser�o necess�rios para dar carga na dimens�o editada, logo ap�s clique em OK, e dessa forma o objeto Origem OLE DB est� configurado para se conectar aos dados provenientes da base de dados transacional.

Arraste o objeto Destino OLE DB para o Fluxo de Dados e ligue a Origem OLE DB nele por meio da seta verde. O objeto Destino OLE DB ser� respons�vel por realizar a conex�o dos dados com as tabelas do modelo estrela. Confira na Figura 14 como o Fluxo de Dados deve ficar.

A configura��o do componente Destino OLE DB � praticamente a mesma do Origem OLE DB.

Uma vez selecionada a tabela de destino, � necess�rio mapear as colunas de destino com as colunas da fonte dos dados. Arraste as colunas de entrada para as colunas de destino conforme a Figura 15. Depois de mapeadas as colunas, clique em OK e o Fluxo de Dados estar� completo.

**Figura 15.** Mapeando as colunas de entrada com a de destino.

Os mesmos procedimentos realizados at� aqui para �Import Candidatos� foram realizados com os Fluxos de Dados �Import Curso�, �Import Cidade�, �Import Matricula�, �Import Questionario� e �Import Tempo�. Com isso completamos a configura��o do processo de ETL para as seis dimens�es.

Ap�s terem sido feitas todas as configura��es � hora de depurar o projeto. Para isso, clique em Iniciar Depura��o. Se o processo for executado com sucesso, os itens ficar�o verdes, e caso haja alguma falha, vermelho (Figura 16).

Depois da tabela fato e tabelas dimens�es terem sido criadas e populadas, foi criado um projeto no Analysis Services.O Analysis Services � respons�vel pela cria��o do cubo e pelas an�lises que podem ser realizadas sobre ele.

Primeiramente � necess�rio criar a Fonte de Dados para acessar o banco ModeloDataMart que foi criado e populado anteriormente. Para isso, clique com o bot�o direito em Fonte de Dados, dispon�vel na janela do Gerenciador de Solu��es, e selecione Nova Fonte de Dados.

O Assistente de Fonte de Dados ir� abrir e ser� necess�rio configurar a conex�o clicando em Novo. Defina as configura��es do servidor selecionando a base de dados. Selecione as configura��es de credenciais necess�rias para o Analysis Services se conectar ao Modelo de Data Mart criado na base de dados.

O pr�ximo passo ser� criar a Exibi��o da Fonte de Dados, localizado abaixo da Fonte de Dados. Nesta etapa � necess�rio selecionar as tabelas desejadas conforme Figura 17.

Selecionando as Tabelas do Modelo de
Data Mart constru�do — **Figura 17.** Selecionando as Tabelas do Modelo de Data Mart constru�do.

O pr�ximo passo � criar um cubo no Analysis Services, localizado abaixo de Exibi��es da Fonte de Dados na janela do Gerenciador de Solu��es. Defina entre as tabelas qual ser� a tabela fato que ser� usada como grupos de medi��o, conforme a Figura 18.

**Figura 18.** Selecionando a tabela Fato.

O pr�ximo passo � selecionar os campos que ser�o utilizados como medida. Uma vez selecionados esses campos, clique em Avan�ar.

Por fim, selecione as dimens�es do cubo. Essas dimens�es s�o sugeridas automaticamente pela ferramenta e, neste caso, s�o DimCandidato, DimCurso, DimCidade, DimMatricula, DimQuestionario e DimTempo, conforme a Figura 19.

**Figura 19.** Selecionando as Dimens�es.

Ao clicar em Avan�ar surgir� um resumo das escolhas realizadas e � poss�vel definir um nome para o Cubo. O cubo e as dimens�es ser�o criados conforme a Figura 20.

Os dados contidos em cada tabela do Data Mart podem ser visualizados de forma simples e r�pida. Basta clicar com o bot�o direito em cima da tabela que deseja visualizar e escolher a op��o �Explorar Dados�. Os dados ser�o carregados e exibidos em forma de tabela, conforme a Figura 21.

**Figura 21.** Dados explorados a partir do Modelo de Data Mart.

Al�m da visualiza��o dos dados pela tabela, tamb�m � poss�vel visualizar estes dados atrav�s de Tabela Din�mica, Gr�ficos e Gr�ficos Din�micos. Na Tabela Din�mica � necess�rio arrastar e soltar no local desejado os atributos da tabela que deseja comparar, conforme a Figura 22.

**Figura 22.** Visualizando os dados pela Tabela Din�mica.

A visualiza��o pelo Gr�fico pode ser realizada, pelo Gr�fico de Coluna, Gr�ficos de Barra e Gr�ficos de Pizza, conforme as Figuras 23, 24 e 25.

**Figura 23.** Visualizando os dados pelo Gr�fico de Coluna.

**Figura 24.** Visualizando os dados pelo Gr�fico de Barra.

Visualizando
os dados pelo Gr�fico de Pizza — **Figura 25.** Visualizando os dados pelo Gr�fico de Pizza.

Resultados e discuss�o

A partir de agora ser�o demonstrados os resultados obtidos na minera��o de dados atrav�s da ferramenta Weka, e de forma simples ser�o interpretados os padr�es encontrados. Tamb�m ser� discutida a proposta do modelo de Data Mart.

Resultados da minera��o dados aplicando a t�cnica de associa��o

Inicialmente, foram seleciononados os atributos necess�rios para gerar regras que pudessem ser analisadas, e a partir delas, delinear o �perfil dos candidatos� ao processo seletivo do IFSULDEMINAS C�mpus Muzambinho.

Em testes iniciais, foram selecionados os atributos referentes �s seguintes quest�es do Question�rio S�cio Econ�mico aplicado em 2012:

Quanto ao uso de microcomputador:
- Tem em casa e usa regularmete;
- Tem em casa e n�o usa;
- Usa no trabalho;
- Usa de parentes ou amigos;
- Lan House;
- Nunca usou;

Com que Frequ�ncia voc� utliza a Internet ?
- Diariamente;
- Semanalmente (algumas vezes);
- Quinzenalmente;
- Mensalmente;
- Somente nos Finais de Semana;
- N�o Utiliza;

Juntamente com essas duas perguntas, foi selecionado o atributo classe_pontos, que foi criado a partir do total de pontos dos candidatos.

Para os resultados obtidos, ser� dado destaque a algumas regras das quais vamos obter informa��es gerais sobre os dados:

internet=Diariamente classe_pontos=ACIMA_80_PONTOS 17 ==> micro=Tem em casa e usa regularmente 16 conf:(0.94)
micro=Tem em casa e usa regularmente internet=Somente nos Finais de semana 32 ==> classe_pontos=ENTRE_40-60_PONTOS 20 conf:(0.63)
micro=Lan House internet=Somente nos Finais de semana 26 ==> classe_pontos=ENTRE_20-40_PONTOS 15 conf:(0.58)
internet=Mensalmente classe_pontos=ENTRE_20-40_PONTOS 23 ==> micro=Lan House 13 conf:(0.57)
micro=Usa de parentes ou amigos internet=Semanalmente (algumas vezes) 56 ==> classe_pontos=ENTRE_40-60_PONTOS 30 conf:(0.54)

Com essas regras podem-se observar caracter�sticas interessantes:

a regra 1 indica que 94% dos candidatos que responderam que usam a internet diariamente e obtiveram acima de 80 pontos no vestibular tamb�m responderam que t�m computador em casa e usam regularmente.
a regra 2 indica que 63% dos candidatos que responderam que possuem computador em casa e usam regularmente, e acessam a internet apenas nos finais de semana; ent�o tiraram entre 40 e 60 pontos no vestibular.
a regra 3 indica que 58% dos candidatos que responderam que utilizam computador em Lan House e acessam a internet apenas nos finais de semana; ent�o tiraram de 20 a 40 pontos no vestibular.
a regra 4 indica que 57% dos candidatos que utilizam a internet mensalmente, e obtiveram entre 20 e 40 pontos no vestibular tamb�m responderam que utilizam o computador em Lan House.
a regra 5 indica que 54% dos candidatos que utilizam o computador de parentes ou amigos e acessam a internet semanalmente, ent�o obtiveram entre 40 e 60 pontos no vestibular.

Com base nessas regras e dentro deste contexto, pode-se concluir que o uso do computador e da internet influenciam diretamente no resultado do candidato no vestibular. Uma boa solu��o seria implantar alguns centros de inclus�o digital para que as pessoas que n�o possuem computador e n�o t�m acesso � internet possam ter um local para fazer suas pesquisas. Al�m disso, percebe-se com as regras acima, que o candidato que utiliza o computador e acessa a internet em Lan House possui uma nota menor do que os candidatos que utilizam o computador de parentes e amigos. Talvez isso ocorra pelo fato de que a maioria das pessoas utilizam os computadores em Lan House mais pra jogos do que para pesquisa, e at� mesmo os que utilizam os computadores especificamente para pesquisa devem encontrar dificuldade de se concentrar diante da movimenta��o que geralmente possui este tipo estabelecimento.

Outro teste realizado foi utilizando a base de dados de 2012, e selecionado o atributo classe_cidade, que foi transformado a partir da rela��o de cidade de cada candidato, juntamente com as seguintes perguntas:

Qual o motivo principal da escolha do curso para o qual voc� se inscreveu?
- Realiza��o pessoal;
- Resultados de testes vocacionais;
- Prest�gio social da profiss�o;
- Possibilidades no mercado de trabalho;
- Influ�ncia da fam�lia e/ou amigos;
- Contribui��o para a sociedade;
- Baixa concorr�ncia no vestibular;
- O curso s� existe neste Instituto;
- Outro Motivo.
Por que escolheu o IFSULDEMINAS?
- Realiza��o pessoal;
- Resultados de testes vocacionais;
- Prestigio social da profiss�o;
- Possibilidades no mercado de trabalho;
- Influ�ncia da fam�lia e/ou amigos;
- Contribui��o para a sociedade;
- Baixa concorr�ncia no vestibular;
- O curso s� existe neste Instituo;
- Outro motivo.

As principais regras geradas foram:

ifsuldeminas=Realiza��o pessoal classe_cidade=ENTRE_100KM-150KM_MUZAMBINHO 41 ==> motivo=Realiza��o pessoal 36 conf:(0.88)
ifsuldeminas=Realiza��o pessoal classe_cidade=ENTRE_50KM-100KM_MUZAMBINHO 115 ==> motivo=Realiza��o pessoal 96 conf:(0.83)
ifsuldeminas=Possibilidades no mercado de trabalho classe_cidade=EM_MUZAMBINHO 73 ==> motivo=Possibilidades no mercado de trabalho 50 conf:(0.68)
ifsuldeminas=Possibilidades no mercado de trabalho classe_cidade=ATE_50KM_MUZAMBINHO 120 ==> motivo=Possibilidades no mercado de trabalho 78 conf:(0.65)

Com essas regras pode-se observar que:

as regras 1 e 2 indicam que de 83 a 88% dos candidatos que escolheram o IFSULDEMINAS por realiza��o pessoal e que moram entre 50 e 150 km de Muzambinho tamb�m escolheram o curso por realiza��o pessoal.
a regra 3 indica que 68% dos candidatos que escolheram o IFSULDEMINAS por possibilidade no mercado de trabalho, moram em Muzambinho e escolheram o curso tamb�m por possibilidade no mercado de trabalho.
a regra 4 indica que 65% dos candidatos que escolheram o IFSULDEMINAS por possibilidade no mercado de trabalho, moram at� 50km de Muzambinho e escolheram o curso tamb�m por possibilidade no mercado de trabalho.

Com base nessas regras, conclui-se que os candidatos que v�m de longe, numa dist�ncia de 50 a 150 km, v�m pela qualidade do IFSULDEMINAS. J� os que moram em Muzambinho ou em at� 50 km de dist�ncia, procuram o IFSULDEMINAS por possibilidade no mercado de trabalho.

Foi selecionada tamb�m na base de dados de 2012, junto com os atributos classe_pontos, e o curso escolhido pelo candidato, a seguinte pergunta:

Como pretende residir na cidade do campus no qual se inscreveu?
- Com parentes;
- Com amigos (compartilhando despesas);
- Sozinho(a);
- Com os pais;
- Somente com a m�e;
- Somente com o pai;
- Internato;
- Com esposo(a) e/ou filho;
- Outra forma;
- N�o morarei na mesma cidade mais viajarei todos os dias.

As principais regras geradas foram:

residir=internato classe_pontos=ENTRE_60-80_PONTOS 46 ==> curso=ENSINO M�DIO E T�CNICO EM AGROPECU�RIA 39 conf:(0.85)
curso=EDUCA��O F�SICA - LICENCIATURA - NOTURNO classe_pontos=ENTRE_20-40_PONTOS 46 ==> residir=n�o morarei na mesma cidade mas viajarei todos os 35 conf:(0.76)
curso=T�CNICO EM ENFERMAGEM - NOTURNO classe_pontos=ENTRE_40-60_PONTOS 45 ==> residir=n�o morarei na mesma cidade mas viajarei todos os 34 conf:(0.76)
curso=T�CNICO EM SEGURAN�A DO TRABALHO 45 ==> residir=n�o morarei na mesma cidade mas viajarei todos os 33 conf:(0.73)
curso=CI�NCIA DA COMPUTA��O - BACHARELADO classe_pontos=ENTRE_20-40_PONTOS 43 ==> residir=n�o morarei na mesma cidade mas viajarei todos os 30 conf:(0.7)
curso=T�CNICO EM AGROPECU�RIA residir=internato 31 ==> classe_pontos=ENTRE_40-60_PONTOS 21 conf:(0.68)
residir=com amigos (compartilhando despesas) classe_pontos=ENTRE_20-40_PONTOS 66 ==> curso=ENGENHARIA AGRON�MICA 43 conf:(0.65)
curso=T�CNICO EM INFORM�TICA - NOTURNO residir=com os pais/um dos pais - qual? _____ 31 ==> classe_pontos=ENTRE_60-80_PONTOS 20 conf:(0.65)

Com base nestas regras, pode-se observar que:

a regra 1 indica que 85% dos candidatos que pretendem residir no internato e obtiveram entre 60 e 80 pontos no vestibular ent�o optaram pelo curso Ensino M�dio e T�cnico em Agropecu�ria integrado.
com as regras 2, 3, 4 e 5, percebe-se que no intervalo entre 70 e 76%, os candidatos que optaram pelos cursos Educa��o Fisica, T�cnico em Enfermagem, T�cnico em Seguran�a do Trabalho e Ci�ncia da Computa��o, independente da nota obtida no vestibular, responderam que iriam residir em suas cidades e viajariam todos os dias.
a regra 6 indica que 68% dos candidatos que escolheram o curso T�cnico em Agropecu�ria e que pretendem residir no internato tirar�o entre 40 e 60 pontos nos vestibular.
a regra 7 indica que 65% dos candidatos que pretendem residir com os amigos (compartilhando despesas) e tiveram entre 20 e 40 pontos no vestibular ent�o escolheram o curso de Engenharia Agron�mica.
a regra 8 indica que os candidatos que optaram pelo curso T�cnico em Inform�tica e ir�o residir com os pais tiraram entre 60 e 80 pontos no vestibular.

Com base nestas regras, nota-se que o curso que exige mais demanda em rela��o ao internato � o curso T�cnico em Agropecu�ria integrado ao Ensino M�dio com T�cnico em Agropecu�ria. Tendo isso em vista, poder�o ser verificadas se as vagas que est�o dispon�veis no internato s�o suficientes para atender essa demanda, garantido assim que o candidato classificado no processo seletivo consiga sua vaga no internato e efetue a sua matricula.

Outro teste realizado foi utilizando os atributos curso, motivo (motivo pela escolha do curso), ifsuldeminas (motivo pela escolha do ifsuldeminas) da base de dados de 2012. As principais regras identificadas foram:

curso=EDUCA��O F�SICA - BACHARELADO - NOTURNO ifsuldeminas=Realiza��o pessoal 29 ==> motivo=Realiza��o pessoal 27 conf:(0.93)
curso=T�CNICO EM AGROPECU�RIA ifsuldeminas=Realiza��o pessoal 26 ==> motivo=Realiza��o pessoal 23 conf:(0.88)
curso=ENGENHARIA AGRON�MICA ifsuldeminas=Realiza��o pessoal 81 ==> motivo=Realiza��o pessoal 64 conf:(0.79)
curso=T�CNICO EM MEIO AMBIENTE motivo=Realiza��o pessoal 17 ==> ifsuldeminas=Realiza��o pessoal 13 conf:(0.76)
curso=ENSINO M�DIO E T�CNICO EM ALIMENTOS ifsuldeminas=Realiza��o pessoal 17 ==> motivo=Realiza��o pessoal 13 conf:(0.76)
curso=ENSINO M�DIO E T�CNICO EM INFORM�TICA ifsuldeminas=Possibilidades no mercado de trabalho 38 ==> motivo=Possibilidades no mercado de trabalho 29 conf:(0.76)
curso=CI�NCIA DA COMPUTA��O - BACHARELADO ifsuldeminas=Realiza��o pessoal 33 ==> motivo=Realiza��o pessoal 25 conf:(0.76)
curso=CI�NCIA DA COMPUTA��O - BACHARELADO ifsuldeminas=Possibilidades no mercado de trabalho 28 ==> motivo=Possibilidades no mercado de trabalho 21 conf:(0.75)
curso=ENSINO M�DIO E T�CNICO EM AGROPECU�RIA motivo=Influ�ncia da fam�lia e/ou amigos 28 ==> ifsuldeminas=Influ�ncia da fam�lia e/ou amigos 16 conf:(0.57)

Com base nas regras acima, pode-se observar que

as regras 1, 2, 3, 4 e 5 est�o numa faixa de confian�a entre 76 a 93%, na qual a op��o pelos cursos foram: Educa��o F�sica, T�cnico em Agropecu�ria, Engenharia Agron�mica, T�cnico em Meio Ambiente, e T�cnico em Alimentos integrado ao Ensino M�dio, escolherem o curso e o IFSULDEMINAS por realiza��o pessoal.
a regra 6 indica que 76% dos candidatos que optaram pelo curso de T�cnico em Inform�tica integrado ao Ensino M�dio e escolheram o IFSULDEMINAS por possibilidade no mercado de trabalho, ent�o escolheram o curso por possibilidade no mercado de trabalho.
a regra 7 indica que 76% dos candidatos que optaram pelo curso de Ci�ncia da Computa��o e escolheram o IFSULDEMINAS por realiza��o pessoal, ent�o escolheram o curso por realiza��o pessoal.
a regra 8 indica que 75% dos candidatos que optaram pelo curso de Ci�ncia da Computa��o e escolheram o IFSULDEMINAS por possibilidade no mercado de trabalho, ent�o escolheram o curso por possibilidade no mercado de trabalho.
a regra 9 indica que 57% dos candidatos que optaram pelo curso de T�cnico em Agropecu�ria integrado ao Ensino M�dio e escolheram o curso por influencia da fam�lia e/ou amigos, ent�o escolheram o IFSULDEMINAS por influ�ncia da fam�lia e/ou amigos.

Com base nas regras acima, percebe-se que grande parte dos candidatos que optaram pelos cursos de Educa��o F�sica, T�cnico em Agropecu�ria, Engenharia Agron�mica, T�cnico em Alimentos, T�cnico em Alimentos integrado ao Ensino M�dio, escolheram o curso e o IFSULDEMINAS por gostar de ambos. J� os candidatos que optaram pelo curso T�cnico em Inform�tica integrado ao Ensino M�dio escolheram o curso e o IFSULDEMINAS por achar que � uma boa op��o para o mercado de trabalho.

Nota-se tamb�m que os candidatos que optaram pela Ci�ncia da Computa��o, possuem uma porcentagem bem pr�xima dos que escolheram o curso e o IFSULDEMINAS por gostar de ambos e dos que escolheram os curso e o IFSULDEMINAS por possibilidade no mercado de trabalho. Percebe-se tamb�m que os candidatos que optaram pelo curso de T�cnico em Agropecu�ria integrado ao Ensino M�dio, escolheram o curso e o IFSULDEMINAS por influ�ncia de fam�lia e/ou amigos, este caso provavelmente acontece, pois na regi�o, a agropecu�ria � o que prevalece, e muitos candidatos procuram o curso e a institui��o, n�o por gostar ou nem por possibilidade que curso proporciona no mercado de trabalho, mas por terem na fam�lia algu�m envolvido com a �rea agr�cola.

Data Mart constru�do

A proposta do Data Mart constru�do neste artigo objetivou manter os dados mais organizados, possibilitar consultas r�pidas e manter um hist�rico dos dados inseridos, al�m de possibilitar que novas t�cnicas de descoberta de conhecimento ou de B.I (Business Intelligence) sejam aplicadas sobre os dados armazenados neste reposit�rio.

O Data Mart constru�do � o resultado da integra��o das tabelas que constituem a base operacional do question�rio s�cio econ�mico e algumas informa��es do candidato, tais como, o sexo, a cidade e a idade, e tamb�m algumas informa��es do Processo Seletivo, como o total de pontos e o curso escolhido pelo candidato, conforme Figura 26.

Como os dados contidos no banco transacional j� haviam sido limpos e formatados de acordo com as especifica��es da Etapa de Pr�-Processamento do KDD, o Data Mart que foi constru�do j� recebeu os dados tratados.

A partir deste Data Mart, foi poss�vel analisar o perfil dos candidatos ao processo seletivo de v�rias maneiras, atrav�s da visualiza��o das tabelas din�micas, pelos diversos tipos de gr�ficos gerados e tamb�m aplicando a minera��o de dados para encontrar mais rela��es interessantes sobre este perfil, visto que o processo de minera��o a partir do data mart � o mesmo processo feito com dados vindos do banco transacional.

As Figuras 27, 28 e 29 ilustram a facilidade de analisar os dados a partir de um gr�fico gerado com os dados provenientes do data mart.

Gr�fico de Colunas gerado a partir do Data Mart constru�do com os dados de
2012 — **Figura** **27.** Gr�fico de Colunas gerado a partir do Data Mart constru�do com os dados de 2012.

Com base nos gr�fico de colunas, percebe-se que a demanda maior de vagas � do Ensino M�dio com o T�cnico integrado, seguido dos cursos de Bacharelado, T�cnico e Licenciatura, levando em considera��o que esses dados s�o referentes aos candidatos que est�o concorrendo aos 30% das vagas, pois 70% das vagas s�o reservadas para o SISU. Analisando pelo nome do curso, nota-se que o T�cnico em Agropecu�ria integrado ao Ensino M�dio � o que mais possui candidatos no processo seletivo, seguido pela Engenharia Agron�mica, Educa��o F�sica, T�cnico em Inform�tica integrado ao Ensino M�dio, Ci�ncia da Computa��o, T�cnico em Inform�tica, Enfermagem, Ci�ncias Biol�gicas, T�cnico em Agropecu�ria, T�cnico em Alimentos integrado Ensino M�dio, Meio Ambiente e Seguran�a do Trabalho. Percebe-se, tamb�m, que a quantidade de candidatos que procuram por curso em per�odo integral s�o maiores do que para os cursos noturnos.

**Figura** **28.** Gr�fico de Pizza gerado a partir do Data Mart constru�do com os dados de 2012.

Os gr�ficos de pizza indicam que 49% dos candidatos ao processo seletivo obt�m entre 40 e 60 pontos, 30% obt�m entre 20 e 40 pontos, 18% obt�m entre 60 e 80 pontos, 1% tira menos de 20 pontos e 2% obt�m acima de 80 pontos. Nota-se tamb�m que 48% dos candidatos possuem idades entre 18 e 22 anos, 27% possuem menos de 17 anos, 15% entre 23 e 30 anos, 5% possuem exatamente 17 anos, 4% de 31 a 40 anos, 1% acima de 40 anos. Em geral, o p�blico atual do processo seletivo do IFSULDEMINAS � bastante jovem.

Gr�fico
de Barras gerado a partir do Data Mart constru�do com os dados de 2012 — **Figura** **29.** Gr�fico de Barras gerado a partir do Data Mart constru�do com os dados de 2012.

Por fim, os gr�ficos de barras mostram que a maioria dos candidatos est� localizada a uma dist�ncia de at� 50 km de Muzambinho � MG. Logo em seguida v�m os que est�o de 50 a 100 km, com um porcentagem bem pr�xima dos candidatos que s�o de Muzambinho-MG. Depois se tem os que est�o entre 100 e 150 km, e depois uma porcentagem pr�xima, por�m pequena s�o dos candidatos que est�o entre 150 e 200 e acima de 200 km. Comparado por cidades individuais, nota-se que grande parte dos candidatos s�o de Muzambinho-MG, as outras cidades com quantidade razo�vel de candidatos s�o Guaxup�, Monte Belo, Cabo Verde, Areado, Alterosa, Nova Resende e Carmo do Rio Claro.

Conclus�o

Neste artigo, observamos que a primeira etapa no processo de descoberta de conhecimento em banco de dados, que � o pr�-processamento, � de extrema import�ncia e exige uma aten��o especial. Ela ir� influenciar diretamente no sucesso das etapas posteriores. Quanto mais os dados forem transformados e enriquecidos, mais padr�es de associa��es s�o encontrados.

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Fernanda Em 2013

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Minera��o de Dados Educacionais usando KDD� Parte 2

O tema discutido neste artigo � �til uma vez que a quantidade de dados presente nas organiza��es nos dias atuais ultrapassou a capacidade humana de interpretar e compreender tanta informa��o.