Motivações para trabalhos acadêmicos na área da análise de dados e data-mining em bancos de dados

Alguns leitores desta coluna têm me enviado mensagens de e-mail indagando sobre bons temas de pesquisa em data-mining e banco de dados, isso para fins de monografias de graduação, pós-graduação e até de dissertações de mestrado. Tenho então, na medida do possível, enviado respostas pontuais, mas nesta coluna resolvi abordar mais detidamente este assunto.

É claro que a escolha de um tema de pesquisa é passível de ser influenciada por diversos fatores, tais como ênfases dos cursos, disciplinas da grade curricular, tendências acadêmicas e de mercado e também aptidões e gostos pessoais. Aliás, este último aspecto é por vezes relegado ao segundo plano, mas um trabalho cuja temática seja agradável ao aluno provavelmente será concluído com maior rapidez e qualidade.

Posso, portanto, comentar aqui sobre os aspectos mercadológicos e acadêmicos. Inicialmente não devemos nos esquecer que continuam em voga as já tradicionais aplicações de data-mining em segmentação de mercado, análise de crédito e basket analysis (análise de cestas de mercado) praticadas em repositórios de dados, principalmente, dos bancos, instituições de crédito e supermercados, isso tanto pelo barateamento dos repositórios, quanto pelo avanço vertiginoso da capacidade de processamento de dados nos últimos anos.

À parte essas já tradicionais aplicações, tenho recebido mensagens de leitores que dispõem de acesso a bases de dados médicas. De fato, como pode ser verificado pelo banco de teses e dissertações do EPS/UFSC , têm sido numerosas as defesas de trabalhos aplicando sistemas especialistas, data-mining e análise multivariada na área da saúde. Basicamente esses trabalhos procuram disseminar e disponibilizar conhecimento e diminuir os custos de recursos humanos, manutenção e atendimento hospitalar por meio de estudos que identifiquem padrões que viabilizem e facilitem a prevenção, classificação e os diagnósticos médicos. Assim é que os planos de saúde, clínicas e hospitais procuram viabilizar a classificação de indivíduos como portadores de determinadas patologias, efetuando um verdadeiro diagnóstico através dos sistemas especialistas. Também, o data-mining, notadamente por regressão, regras de associação e análise de agrupamento, pode identificar grupos de risco, comportamentos e hábitos mais associados ou vinculados a determinadas patologias médicas ou odontológicas e até estimar a expectativa de vida para segurados de sistemas de saúde. Além disso, uma área interessante seria o data-mining aplicado ao processamento de imagens médicas, mas não apenas a título de reconhecimento, pois seria conveniente que esse processo fosse direcionado pela conceituação prévia das ontologias referentes ao domínio médico específico e, dessa forma, muito do conhecimento estaria disponível a baixo custo mesmo nas localidades mais distantes do território, mas sempre a título de triagem, bem entendido, já que o objetivo não seria substituir o profissional de medicina ou qualquer outro, mas sim disponibilizar uma possibilidade de atendimento ágil e universalista à população, mesmo porque uma ontologia só poderia ser definida sob a supervisão desses profissionais graduados.

Mas o que é ontologia? No contexto da inteligência artificial, seu conceito está associado aos pressupostos, regras e definições considerados verdadeiros ou aceitos em um determinado escopo ou domínio de conhecimento. Vê-se, portanto, porque ela tem de ser definida ou estabelecida sob a tutela de um diplomado ou especialista no ramo. Por exemplo, se estamos utilizando data-mining para o processamento de textos jurídicos, precisamos de ontologias que informem ao processamento a existência de diversas instâncias e jurisdições que precisam ser respeitadas e hierarquizadas, e também conceitos de jurisprudência e doutrina, dentre outros, de forma a que os algoritmos possam ser eficientes neste domínio específico. As ontologias têm sido bastante exploradas por um dos desdobramentos das engenharias (é curioso e instigante notar que há cerca de cem anos existiam basicamente as engenharias civil e militar e, hoje, fruto do crescimento exponencial de nosso conhecimento científico, podem ser enumeradas a mecânica, civil, de produção, elétrica, de telecomunicações, de alimentos, de materiais, metalúrgica, mecatrônica, de computação, etc), qual seja a engenharia do conhecimento, que procura justamente fundamentar e subsidiar cientificamente a geração e disseminação de conhecimento a partir de informações brutas, basicamente fazendo uso das técnicas de datawarehousing, inteligência artificial, data-mining e métodos estatísticos. Pois assim é que uma valiosa fase de conceituação de ontologias pode e deve alavancar um processamento de data-mining, principalmente nos contextos em que há a presença da semântica (text-mining) e de imagens virtuais. O acadêmico pode, portanto, explorar tanto a fase de conceituação ontológica quanto a de aplicação de técnicas e algoritmos propriamente ditos em suas atividades discentes.

Outro campo em que se multiplicam as aplicações é a dos Data Marts (DM) de clickstream. Estes visam, em geral, auxiliar na alocação de recursos e otimização do layout de sites e também na personalização do atendimento ao cliente, basicamente por meio do acesso ao clickstream (seqüência de cliques) de um usuário em uma sessão de internet, este geralmente armazenado em um arquivo de log (registro) da sessão. Nestes DMs, um desafio para os trabalhos acadêmicos mais relacionados à ciência da computação tem sido como lidar com os grandes volumes de arquivos de log (em geral o volume de dados a ser tratado em um DM de clickstream é bem superior aos dos DM e data warehouses tradicionais) servindo de subsídio ao DM, isto é, a preocupação é como garantir a eficiência do modelo lógico dimensional, do projeto físico e das tarefas de limpeza, transformação, carga, atualização e backup, dentre outras, frente à matéria-prima de dados que se atualiza minuto a minuto. Isso tem gerado diversas novas questões a serem exploradas em termos do projeto lógico (O que é fato? Qual a unidade fundamental de medida?) e das políticas de atualização, backup e armazenamento de dados. Mais informações sobre estes DMs podem ser acessadas nas referências ao final deste texto. Mas a ênfase de estudo pode se dar em relação à aplicação das técnicas de data-mining que ali têm se demonstrado eficientes, tanto na questão da reorganização do layout de sites, quanto na da personalização de atendimento ao cliente, tais como link-analysis, análise de sobrevivência, agrupamento e regras de associação.

Por fim gostaria de comentar algo sobre a análise de séries temporais. Este tradicional campo de estudo da estatística, da econometria e das engenharias em geral agora enfrenta o desafio de lidar com milhares e milhares de séries que se multiplicam e atualizam diariamente ou até em minutos. Por exemplo, se considerarmos a moedas correntes atualmente nos países do mundo, e que atualizam suas cotações diariamente, ficamos então com centenas de séries temporais de cotações com periodicidade diária, o que com o passar dos anos acarreta grande volume de dados a ser considerado pelos analistas de economia. Por outro lado, se abstrairmos a duração de cada uma das mencionadas sessões de clickstream registradas para um determinado usuário como uma série temporal de duração de sessões, passamos a contar com uma série passível de várias atualizações ao longo do dia, isso sem falar no seu desfiar ao longo dos meses e anos. Assim, ganha lugar o processo de data-mining em séries temporais, que tem se preocupado, de maneira geral, com a identificação de outliers e avaliação de seu impacto potencial nos modelos ou algoritmos tipicamente aplicados nestas séries; na avaliação da covariância/correlação evolutiva de centenas ou milhares de séries de dados e também com algoritmos para seleção de variáveis para modelos estatísticos, mas tudo isso de maneira automática, pois quando se está lidando com um número elevado de séries, esses processos, que em geral são realizados de maneira manual ou semi-automática pelo analista, precisam ser automatizados para fins de factibilidade e até viabilidade dos trabalhos. Contudo, devemos nos lembrar aqui que as definições de data-mining apresentadas na primeira coluna são flexíveis e não exigem para essa conceituação a completa automatização de processos, por exemplo, segundo Fayyad et al. (1997), “qualquer algoritmo que identifica padrões em dados, ou ajusta modelos aos dados, executa data-mining. É uma das etapas do knowledge data discovery”. Quanto à análise de séries temporais, em futuro próximo devo ter algumas novidades interessantes para relatar aos leitores, posto que no final do mês de julho inicia-se a 11ª Escola de Séries Temporais e Econometria (ESTE), em Vila Velha - ES, evento nacional bi-anual patrocinado pela Associação Brasileira de Estatística (ABE) e pela Sociedade Brasileira de Econometria (SBE) que envolve sessões temáticas, conferências, mini-cursos e apresentação de trabalhos científicos, e no qual provavelmente estarei presente em função de ter logrado aprovação de trabalho para a sessão pôster.

Abraços,
Alexandre.

E-mail: alexandre_serra@ig.com.br