quinta-feira, dezembro 28, 2006

TPC 2

Problema

A generalização das redes de monitorização de variáveis ambientais e de variáveis meteorológicas, associado a um nº cada vez maior de métodos de Data Mining, tem vindo a fomentar a utilização de técnicas conhecidas por “Data Driven Modeling”.
O ano de 2006 foi especialmente afectado por cheias por todo o país, sendo por isso fundamental a correcta produção de alertas às populações para minimizar os efeitos inerentes.


Objectivo

Assim, com este trabalho pretende-se que o aluno seja capaz de desenvolver uma ferramenta analítica capaz de prever possíveis riscos de cheias a 3 dias de distância para a estação hidrométrica do Agroal na Bacia do Rio Tejo. Para tal, o aluno deverá utilizar o algoritmo de classificação (CART) disponível no Add-in de Excel XLMiner.

O que deve ser entregue

• Relatório com um pequeno enquadramento do problema, os procedimentos adoptados e os resultados obtidos. Este deverá ter um máximo de 5 páginas (excluindo a capa) e letra de tamanho mínimo de 10.

• Ficheiro de Excel com a possibilidade de ser alimentado por novos dados e serem encontradas novas árvores de classificação

O que vai ser avaliado

Para além do relatório, vai ser igualmente avaliada a versatilidade do ficheiro de Excel a novos dados e respectivo processo analítico

Conselhos

• Utilizem agregações diárias de alturas de água como média, mediana ou outro percentil para inferir o risco de cheia. Algo do tipo, se o valor for superior a x, então a minha categoria dependente é 1, senão é 0.
• Utilizem dados de uma estação meteorológica nas imediações da estação hidrométrica do Agroal como variáveis independentes. Convém não esquecer que alturas de água em tempos anteriores aos do de previsão poderão igualmente ser importantes para uma correcta previsão.
• Podem utilizar macros de Visual Basic para simplificar o processo de treino da Árvore de Classificação, mas, por favor, não compliquem! Utilizem a programação apenas para o necessário.