Analiza dużych zbiorów danych
Selekcja i wstępne przetwarzanie
Jakość pozyskanej wiedzy zależy od jakości danych. Niestety rzeczywiste dane są zwykle niedoskonałe: zawierają błędy, są niekompletne i niespójne, często także nadmiarowe. Konieczne jest zatem usunięcie tych niedoskonałości. Jest to realizowane w procesie przetwarzania wstępnego. Etap ten warto rozpocząć od selekcji, czyli wyboru danych, które będą brane pod uwagę w trakcie analizy. Istotne okazują się w tym przypadku wiedza o procesie i zrozumienie danych. Pozwalają one wskazać, które dane są relewantne (istotne), które mogą być potencjalnie istotne, a które są redundantne (nadmiarowe) i mogą zostać usunięte. Do najczęściej stosowanych technik w tym zakresie zalicza się:
- czyszczenie danych, czyli usuwanie brakujących danych; w niektórych przypadkach może to zająć nawet do 60% czasu analizy;
- transformację danych, czyli przekształcenie danych poprawiające dokładność i efektywność procesu pozyskiwania wiedzy; jednymi z najczęstszych operacji są normalizacja danych lub ich skalowanie;
- redukcję liczby cech (tzw. atrybutów) przekazywanych do dalszej analizy; redukcji można dokonać poprzez wspomnianą wcześniej eliminację cech redundantnych lub agregację [...]
Porównaj produkty