Wstępne przetwarzanie danych

Zbiory danych mogą stać się cennym źródłem wiedzy. Aby tak się jednak stało, musimy we właściwy sposób podejść do ich analizy. Proces analizy danych składa się z kilku etapów (opisanych w nr. 1/2020 „Utrzymania Ruchu” w artykule Analiza dużych zbiorów danych). Kluczowym etapem jest etap wstępnego przetwarzania danych, który bezpośrednio poprzedza etap eksploracji i jest często etapem najbardziej pracochłonnym.

Właściwie przeprowadzone wstępne przetwarzanie nie tylko usprawnia proces eksploracji, ale też w znaczący sposób poprawia możliwości interpretacji uzyskanych wyników.

Wstępne przetwarzanie danych składa się z kilku kroków, takich jak:

  • selekcja danych,
  • czyszczenie danych,
  • redukcja liczby cech,
  • transformacja,
  • dyskretyzacja wartości.

Nie zawsze wszystkie kroki są wymagane. Zależy to od jakości danych, od celu, jaki chcemy osiągnąć, ale też bezpośrednio od metod eksploracji, których zamierzamy użyć.

Selekcja danych

Gromadzona jest ogromna liczba danych. W wielu przypadkach część z nich albo nie ma związku z celem prowadzonych analiz, albo jest redundantna (nadmiarowa), czyli niesie taką samą informację. Eliminacja choćby części danych i wybór jedynie istotnych pozwalają nie tylko zmniejszyć nakład pracy w dalszych krokach wstępnego przetwarzania, ale w znaczący sposób mogą wpłynąć na wydajność procesu eksploracji i jakość uzyskiwanych wyników. Tego typu selekcja najczęściej dokonywana jest ręcznie, a dokładna znajomość analizowanego procesu i pełne zrozumienie gromadzonych danych są w tym przypadku niezwykle istotne.

Czyszczenie danych

Rzeczywiste dane prawie zawsze są niedoskonałe. Najczęstszymi niedoskonałościami są pojawiające się braki wartości oraz wartości błędne. Zarówno problem braków, jak i błędnych wartości może być związany m.in. z zakłóceniami w transmisji danych, ze zmianami warunków pomiarów lub z awariami czujników czy torów pomiarowych. Konieczne w tym przypadku staje się wyczyszczenie danych (rys. 1).

Generalnie problem ten można rozwiązać na dwa sposoby:

  • poprzez odrzucenie z dalszej analizy danych zawierających braki,
  • poprzez uzupełnienie brakujących wartości.

Usuwanie braków może się odbywać poprzez usuwanie całych rekordów (co jest dopuszczalne z reguły jedynie wówczas, gdy braki dotyczą stosunkowo niewielkiej liczby przypadków i mamy pewność, że nie będzie to prowadziło do uzyskania tendencyjnych wyników analizy) bądź też poprzez usuwanie wybranych zmiennych (kolumn), gdy to głównie one zawierają braki. Uzupełnienie wartości, zwane często imputacją, oznacza zastąpienie wartości brakującej, w zależności od przypadku, np. wartością średnią danej zmiennej lub medianą, ostatnią zaobserwowaną wartością, wartością określoną na podstawie przypadku „podobnego” lub wartością wyliczoną na podstawie modelu regresji zbudowanego na wartościach pozostałych zmiennych.

W ten sam sposób można postępować przy eliminowaniu błędnych danych. Czyszczenie danych może obejmować również inne działania, takie jak np. wykrywanie i ewentualne usuwanie obserwacji odstających. Zakres prowadzonych w tym kroku czynności zależy m.in. od stosowanych w dalszym etapie metod eksploracji danych. Niektóre z nich (jak np. metoda drzew decyzyjnych) dobrze radzą sobie z danymi, w których występują braki, inne zaś nie dopuszczają takiej możliwości.

Opisane działania nie wyczerpują wszystkich możliwości. W konkretnych przypadkach konieczne może być sięgnięcie do bardziej zaawansowanych metod opisanych w specjalistycznej literaturze.

Przemysł maszynowy może zwiększyć produktywność nawet o połowę dzięki innowacjom i sztucznej inteligencji

Producenci maszyn i urządzeń mogą zwiększyć produktywność o 30-50 proc. Ułatwia to sztuczna inteligencja, narzędzia cyfrowe i wdrażanie rozwiązań wspierających gospodarkę obiegu zamkniętego i redukcję odpadów. Tak wynika wynika z najnowszego raportu firmy doradczej Bain &amp...

Partner kategorii:

Automatyka zabezpieczająca w instalacjach energetycznych

Z artykułu dowiesz się: jak prawo charakteryzuje konieczne elementy bezpieczeństwa instalacji energetycznej,kto ponosi odpowiedzialność za bezpieczeństwo takiej instalacji,z czym wiąże się scalenie urządzeń ciśnieniowych na ...

nity-plastikowe-i-nity-metalowe-ktore-wybrac-i-dlaczego

Nity plastikowe i nity metalowe – które wybrać i dlaczego?

Proces nitowania pozwala na stałe łączenie poszczególnych elementów konstrukcyjnych. Same nity są spoiwem o doskonałym zacisku. Poznaj właściwości nitów plastikowych oraz metalowych, aby wybrać odpowiednie do konkretnego łączenia. D...

Partner kategorii:

Zaskakujący porządek uciskanych stopów

W stopach niklowo-kobaltowo-chromowych atomy niklu układać się mogą pod wpływem nacisku w regularne wzory - pokazały symulacje międzynarodowego zespołu. Do tej pory sądzono, że takie uporządkowania mogą tworzyć się jedynie pod wpływem obróbki termicznej.

branza-tsl-czy-cudzoziemcy-zapelnia-wakaty-w-branzy-transportowej

Czy cudzoziemcy zapełnią wakaty w branży transportowej?

W obliczu rosnącego niedoboru kierowców, polska branża TSL szuka skutecznych sposobów na przyciągnięcie pracowników. Wyzwaniem staje się znalezienie metod atrakcyjniejszych niż podwyżki płac. Napływ cudzoziemców z Ukrainy i Białorusi nie gwarantuje już wypełnienia luk kadrowyc...

Partner kategorii:

Co trzeci przetwórca tworzyw sztucznych inwestuje w park maszyn i urządzeń

Polskie przedsiębiorstwa przetwarzające tworzywa sztuczne zwiększyły swoją zdolność do konkurowania. Świadczy o tym wzrost sub-indeksu MiU dla tej branży o 6,15 pkt. Jest to efekt m.in. zwiększenia nakładów na modernizację parku maszyn i urządzeń (MiU) oraz automatyzację pro...

Wybrane maszyny i urządzenia stosowane w procesach gięcia

W niniejszym artykule dokonano przeglądu maszyn i urządzeń wykorzystywanych w procesach gięcia rur, profili, drutu oraz sprężyn. Przedstawiono charakterystykę giętarek wybranych producentów dostępnych na rynku polskim. Urządzenia podzielono na: giętarki trzpieniowe, giętarki b...

Metody łamania wiórów w obróbce skrawaniem – cz. II

Z artykułu dowiesz się: jakie są sposoby łamania wiórów;od czego zależy wybór metody łamania;jakie są wady i zalety poszczególnych metod. Dobór odpowiedniej metody łamania...

netskope

Hakerzy z kolejnymi sposobami na atakowanie

Atakujący próbują wykraść cenne dane, takie jak szczegóły płatności od organizacji i klientów, ale także dane wizualne uzyskane na przykład z kamer. W tym sektorze odnotowuje się dwa razy więcej pobrań złośliwego oprogramowania z...

elementy-hali-stalowej-charakterystyka-fot-2

Elementy hali stalowej – charakterystyka

Hale stalowe są jednymi z najbardziej popularnych obiektów budownictwa przemysłowego. Z tego też powodu elementy konstrukcyjne hali stalowej są bardzo dobrze poznane i opisane w wielu źródłach literaturowych, co pozwala na optymalne wykorzystanie ich nośności.

STAL_3-4_24_Agnieszka_Skoczylas_STOPY_METALI_PO_CIECIU_LASEREM_iStock-1459336381

Właściwości warstwy wierzchniej wybranych stopów metali po cięciu laserem

Z artykułu dowiesz się: jakie są wady i zalety technologii cięcia laserowego;od czego zależą właściwości materiału po cięciu;jakie badania przeprowadzono. Proces wytwarzan...

OZE

Szybko rośnie udział odnawialnych źródeł w krajowym miksie energetycznym. Potrzebne przyspieszenie w inwestycjach w sieci przesyłowe

W ubiegłym roku odnawialne źródła energii stanowiły już ponad 40 proc. mocy zainstalowanej w krajowym miksie energetycznym. Odpowiadały za 27 proc. całkowitej produkcji energii. Tym samym Polska pobiła kolejne rekordy, ale w kontekście rozwoju OZE na rodzimym rynku wciąż poz...

logo-na-elewacji-zmora-kierownika-budowy-i-gw-fot-3

Logo na elewacji – zmora Kierownika Budowy i GW

W branży budowlanej, zwłaszcza w przypadku budynków przemysłowych, takich jak hale i obiekty wielkopowierzchniowe oznakowania są tak samo istotne jak pozostałe elementy wyposażenia. Jednak, gdy nadchodzi moment umieszczenia logo na ...

czyszczenie laserowe
Partner kategorii:

Bezpieczeństwo pracy z laserami czyszczącymi

Na czym polega technologia czyszczenia laserowego i jakie są jej zalety? Co wyróżnia lasery czyszczące spośród innych technologii? Uniwersalność procesu czyszczenia laserowego sprawia, że może być z powodzeniem stosowan...

Spadły ceny produkcji sprzedanej przemysłu. Co z branżą obróbki metali?

Według wstępnych danych w marcu 2024 r. ceny produkcji sprzedanej przemysłu spadły zarówno w stosunku do lutego 2024 r. – o 0,1%, jak i w porównaniu z analogicznym miesiącem poprzedniego roku – o 9,6%.

Relacje

Katalog produktów

Sklep

STAL Metale & Nowe Technologie 1-2/24

STAL Metale & Nowe Technologie 1-2/24

Zamów
Nowoczesne Hale 1/2024

Nowoczesne Hale 1/2024

Zamów
Utrzymanie Ruchu 1/2024

Utrzymanie Ruchu 1/2024

Zamów
Fastener 1/2023

Fastener 1/2023

Zamów
Metody diagnostyki maszyn i urządzeń w predykcyjnym utrzymaniu ruchu

Metody diagnostyki maszyn i urządzeń w predykcyjnym utrzymaniu ruchu

Zamów
Rozwiązania energooszczędne wykorzystywane w budownictwie wielkopowierzchniowym (e-book)

Rozwiązania energooszczędne wykorzystywane w budownictwie wielkopowierzchniowym (e-book)

Zamów
Gwinty - rodzaje, wymiary, podstawowe obliczenia

Gwinty - rodzaje, wymiary, podstawowe obliczenia

Zamów
Koła zębate – projektowanie, wytwarzanie, pomiary, eksploatacja

Koła zębate – projektowanie, wytwarzanie, pomiary, eksploatacja

Zamów
Inżynieria doskonałości w procesach biznesowych. Przewodnik po teorii i dobrych praktykach

Inżynieria doskonałości w procesach biznesowych. Przewodnik po teorii i dobrych praktykach

Zamów
Metrologia. Wybrane zagadnienia (e-book)

Metrologia. Wybrane zagadnienia (e-book)

Zamów
Przewodnik po technologiach przemysłu 4.0

Przewodnik po technologiach przemysłu 4.0

Zamów
Vademecum projektanta. Budownictwo halowe (e-book)

Vademecum projektanta. Budownictwo halowe (e-book)

Zamów
Poznaj nasze serwisy

Nasze strony wykorzystują pliki cookies. Korzystanie z naszych stron internetowych bez zmiany ustawień przeglądarki dotyczących plików cookies oznacza, że zgadzacie się Państwo na umieszczenie ich w Państwa urządzeniu końcowym. Więcej szczegółów w Polityce prywatności.