quarta-feira, janeiro 10, 2007

TPC 2 terceira parte

Algumas notas relativamente ao trabalho:


Pré-processamento dos dados

Após retirarem os dados do snirh (alturas de água e precipitações), podem utilizar pivot tables para agregarem dados.

Análise

Após tratarem os dados que vão ser utilizados para construírem a vossa árvore de classificação, devem decompor a tabela resultante em 3 subconjuntos de dados utilizando XlMiner->Partition Data-> Standard Partition:

1 – Para construir a árvore de classificação (Training Set);
2- Dados para reduzir o efeito de sobre-ajustamento (Validation Set);
3- Dados para testar se a árvore final está correcta (Test Set).

Após a partição dos dados, utilizem a worksheet produzida como input de dados da árvore de classificação.

Devem utilizar as 3 “classification confusion matrix” para avaliarem a qualidade dos resultados. Esta matriz diz-nos a quantidade de classes que foram correctamente previstas. A gama de erros deve ser sempre a mesma independentemente da percentagem de erro na previsão.

Para chegarem a um resultado tenham em atenção que os 3 conjuntos de dados podem ser retirados aleatoriamente, podendo haver diferentes resultados para diferentes pacotes de partição.