Motivações para trabalhos acadêmicos na área da análise de dados e data-mining em bancos de dados

Motiva��es para trabalhos acad�micos na �rea da an�lise de dados e data-mining em bancos de dados

Alguns leitores desta coluna t�m me enviado mensagens de e-mail indagando sobre bons temas de pesquisa em data-mining e banco de dados, isso para fins de monografias de gradua��o, p�s-gradua��o e at� de disserta��es de mestrado. Tenho ent�o, na medida do poss�vel, enviado respostas pontuais, mas nesta coluna resolvi abordar mais detidamente este assunto.

� claro que a escolha de um tema de pesquisa � pass�vel de ser influenciada por diversos fatores, tais como �nfases dos cursos, disciplinas da grade curricular, tend�ncias acad�micas e de mercado e tamb�m aptid�es e gostos pessoais. Ali�s, este �ltimo aspecto � por vezes relegado ao segundo plano, mas um trabalho cuja tem�tica seja agrad�vel ao aluno provavelmente ser� conclu�do com maior rapidez e qualidade.

Posso, portanto, comentar aqui sobre os aspectos mercadol�gicos e acad�micos. Inicialmente n�o devemos nos esquecer que continuam em voga as j� tradicionais aplica��es de data-mining em segmenta��o de mercado, an�lise de cr�dito e basket analysis (an�lise de cestas de mercado) praticadas em reposit�rios de dados, principalmente, dos bancos, institui��es de cr�dito e supermercados, isso tanto pelo barateamento dos reposit�rios, quanto pelo avan�o vertiginoso da capacidade de processamento de dados nos �ltimos anos.

� parte essas j� tradicionais aplica��es, tenho recebido mensagens de leitores que disp�em de acesso a bases de dados m�dicas. De fato, como pode ser verificado pelo banco de teses e disserta��es do EPS/UFSC , t�m sido numerosas as defesas de trabalhos aplicando sistemas especialistas, data-mining e an�lise multivariada na �rea da sa�de. Basicamente esses trabalhos procuram disseminar e disponibilizar conhecimento e diminuir os custos de recursos humanos, manuten��o e atendimento hospitalar por meio de estudos que identifiquem padr�es que viabilizem e facilitem a preven��o, classifica��o e os diagn�sticos m�dicos. Assim � que os planos de sa�de, cl�nicas e hospitais procuram viabilizar a classifica��o de indiv�duos como portadores de determinadas patologias, efetuando um verdadeiro diagn�stico atrav�s dos sistemas especialistas. Tamb�m, o data-mining, notadamente por regress�o, regras de associa��o e an�lise de agrupamento, pode identificar grupos de risco, comportamentos e h�bitos mais associados ou vinculados a determinadas patologias m�dicas ou odontol�gicas e at� estimar a expectativa de vida para segurados de sistemas de sa�de. Al�m disso, uma �rea interessante seria o data-mining aplicado ao processamento de imagens m�dicas, mas n�o apenas a t�tulo de reconhecimento, pois seria conveniente que esse processo fosse direcionado pela conceitua��o pr�via das ontologias referentes ao dom�nio m�dico espec�fico e, dessa forma, muito do conhecimento estaria dispon�vel a baixo custo mesmo nas localidades mais distantes do territ�rio, mas sempre a t�tulo de triagem, bem entendido, j� que o objetivo n�o seria substituir o profissional de medicina ou qualquer outro, mas sim disponibilizar uma possibilidade de atendimento �gil e universalista � popula��o, mesmo porque uma ontologia s� poderia ser definida sob a supervis�o desses profissionais graduados.

Mas o que � ontologia? No contexto da intelig�ncia artificial, seu conceito est� associado aos pressupostos, regras e defini��es considerados verdadeiros ou aceitos em um determinado escopo ou dom�nio de conhecimento. V�-se, portanto, porque ela tem de ser definida ou estabelecida sob a tutela de um diplomado ou especialista no ramo. Por exemplo, se estamos utilizando data-mining para o processamento de textos jur�dicos, precisamos de ontologias que informem ao processamento a exist�ncia de diversas inst�ncias e jurisdi��es que precisam ser respeitadas e hierarquizadas, e tamb�m conceitos de jurisprud�ncia e doutrina, dentre outros, de forma a que os algoritmos possam ser eficientes neste dom�nio espec�fico. As ontologias t�m sido bastante exploradas por um dos desdobramentos das engenharias (� curioso e instigante notar que h� cerca de cem anos existiam basicamente as engenharias civil e militar e, hoje, fruto do crescimento exponencial de nosso conhecimento cient�fico, podem ser enumeradas a mec�nica, civil, de produ��o, el�trica, de telecomunica��es, de alimentos, de materiais, metal�rgica, mecatr�nica, de computa��o, etc), qual seja a engenharia do conhecimento, que procura justamente fundamentar e subsidiar cientificamente a gera��o e dissemina��o de conhecimento a partir de informa��es brutas, basicamente fazendo uso das t�cnicas de datawarehousing, intelig�ncia artificial, data-mining e m�todos estat�sticos. Pois assim � que uma valiosa fase de conceitua��o de ontologias pode e deve alavancar um processamento de data-mining, principalmente nos contextos em que h� a presen�a da sem�ntica (text-mining) e de imagens virtuais. O acad�mico pode, portanto, explorar tanto a fase de conceitua��o ontol�gica quanto a de aplica��o de t�cnicas e algoritmos propriamente ditos em suas atividades discentes.

Outro campo em que se multiplicam as aplica��es � a dos Data Marts (DM) de clickstream. Estes visam, em geral, auxiliar na aloca��o de recursos e otimiza��o do layout de sites e tamb�m na personaliza��o do atendimento ao cliente, basicamente por meio do acesso ao clickstream (seq��ncia de cliques) de um usu�rio em uma sess�o de internet, este geralmente armazenado em um arquivo de log (registro) da sess�o. Nestes DMs, um desafio para os trabalhos acad�micos mais relacionados � ci�ncia da computa��o tem sido como lidar com os grandes volumes de arquivos de log (em geral o volume de dados a ser tratado em um DM de clickstream � bem superior aos dos DM e data warehouses tradicionais) servindo de subs�dio ao DM, isto �, a preocupa��o � como garantir a efici�ncia do modelo l�gico dimensional, do projeto f�sico e das tarefas de limpeza, transforma��o, carga, atualiza��o e backup, dentre outras, frente � mat�ria-prima de dados que se atualiza minuto a minuto. Isso tem gerado diversas novas quest�es a serem exploradas em termos do projeto l�gico (O que � fato? Qual a unidade fundamental de medida?) e das pol�ticas de atualiza��o, backup e armazenamento de dados. Mais informa��es sobre estes DMs podem ser acessadas nas refer�ncias ao final deste texto. Mas a �nfase de estudo pode se dar em rela��o � aplica��o das t�cnicas de data-mining que ali t�m se demonstrado eficientes, tanto na quest�o da reorganiza��o do layout de sites, quanto na da personaliza��o de atendimento ao cliente, tais como link-analysis, an�lise de sobreviv�ncia, agrupamento e regras de associa��o.

Por fim gostaria de comentar algo sobre a an�lise de s�ries temporais. Este tradicional campo de estudo da estat�stica, da econometria e das engenharias em geral agora enfrenta o desafio de lidar com milhares e milhares de s�ries que se multiplicam e atualizam diariamente ou at� em minutos. Por exemplo, se considerarmos a moedas correntes atualmente nos pa�ses do mundo, e que atualizam suas cota��es diariamente, ficamos ent�o com centenas de s�ries temporais de cota��es com periodicidade di�ria, o que com o passar dos anos acarreta grande volume de dados a ser considerado pelos analistas de economia. Por outro lado, se abstrairmos a dura��o de cada uma das mencionadas sess�es de clickstream registradas para um determinado usu�rio como uma s�rie temporal de dura��o de sess�es, passamos a contar com uma s�rie pass�vel de v�rias atualiza��es ao longo do dia, isso sem falar no seu desfiar ao longo dos meses e anos. Assim, ganha lugar o processo de data-mining em s�ries temporais, que tem se preocupado, de maneira geral, com a identifica��o de outliers e avalia��o de seu impacto potencial nos modelos ou algoritmos tipicamente aplicados nestas s�ries; na avalia��o da covari�ncia/correla��o evolutiva de centenas ou milhares de s�ries de dados e tamb�m com algoritmos para sele��o de vari�veis para modelos estat�sticos, mas tudo isso de maneira autom�tica, pois quando se est� lidando com um n�mero elevado de s�ries, esses processos, que em geral s�o realizados de maneira manual ou semi-autom�tica pelo analista, precisam ser automatizados para fins de factibilidade e at� viabilidade dos trabalhos. Contudo, devemos nos lembrar aqui que as defini��es de data-mining apresentadas na primeira coluna s�o flex�veis e n�o exigem para essa conceitua��o a completa automatiza��o de processos, por exemplo, segundo Fayyad et al. (1997), �qualquer algoritmo que identifica padr�es em dados, ou ajusta modelos aos dados, executa data-mining. � uma das etapas do knowledge data discovery�. Quanto � an�lise de s�ries temporais, em futuro pr�ximo devo ter algumas novidades interessantes para relatar aos leitores, posto que no final do m�s de julho inicia-se a 11� Escola de S�ries Temporais e Econometria (ESTE), em Vila Velha - ES, evento nacional bi-anual patrocinado pela Associa��o Brasileira de Estat�stica (ABE) e pela Sociedade Brasileira de Econometria (SBE) que envolve sess�es tem�ticas, confer�ncias, mini-cursos e apresenta��o de trabalhos cient�ficos, e no qual provavelmente estarei presente em fun��o de ter logrado aprova��o de trabalho para a sess�o p�ster.

Abra�os,
Alexandre.

E-mail: alexandre_serra@ig.com.br

Confira outros conte�dos:

SQL SUM: somando os valores de uma...

SQL: INNER JOIN

SQL: Introdu��o ao Where

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Alexandre Em 2006

Coment�rios nesta publica��o Escrever um coment�rio sobre conte�do

Ronaldo Silva.

N�vel

Boa noite.

Gostei do texto por ter tratado o assunto de modo simples e direto e dado exemplos �teis de uso de ontologia. Muito bom.

Ronaldo Pedreira Silva.

Al�fia

http://ronaldoalafia.blogspot.com.br

há +1 ano

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso