Wstępne przetwarzanie danych
Podział wartości na przedziały może być dokonany przy zastosowaniu różnych strategii. Do najczęściej stosowanych zalicza się: podział zakresu wartości na przedziały o równej szerokości, na przedziały o porównywalnej liczbie obserwacji, podział z zachowaniem podobieństwa względnych częstości klas decyzyjnych w podprzedziałach (strategia ChiMerge) lub podział wykorzystujący miarę entropii i regułę MDL (ang. Minimal Description Length). Większość dostępnych systemów analizy danych oferuje możliwość zastosowania odpowiednich metod przetwarzania wstępnego. Trzeba je tylko umiejętnie wykorzystać. Dopiero tak przygotowane dane można poddać właściwej analizie zwanej eksploracją danych.
Podsumowanie
Wstępne przetwarzanie danych jest bardzo istotnym etapem w procesie ich analizy. Na tym właśnie etapie poprawiana jest jakość danych, co w końcowym efekcie poprawia zarówno efektywność, jak i dokładność procesu eksploracji. Usuwanie błędów w danych, braków oraz szumu, wreszcie redukcja danych zwykle prowadzą do uzyskania korzyści w postaci znacznie lepszych jakościowo modeli i podejmowania trafniejszych decyzji. Warto zatem podjąć ten wysiłek i pamiętając, że jest to jeden z najtrudniejszych i najbardziej czasochłonnych etapów. W niektórych przypadkach może zająć nawet do 60% całkowitego czasu analizy danych.



