Wstępne przetwarzanie danych

Zbiory danych mogą stać się cennym źródłem wiedzy. Aby tak się jednak stało, musimy we właściwy sposób podejść do ich analizy. Proces analizy danych składa się z kilku etapów (opisanych w nr. 1/2020 „Utrzymania Ruchu” w artykule Analiza dużych zbiorów danych). Kluczowym etapem jest etap wstępnego przetwarzania danych, który bezpośrednio poprzedza etap eksploracji i jest często etapem najbardziej pracochłonnym.

Właściwie przeprowadzone wstępne przetwarzanie nie tylko usprawnia proces eksploracji, ale też w znaczący sposób poprawia możliwości interpretacji uzyskanych wyników.

Wstępne przetwarzanie danych składa się z kilku kroków, takich jak:

  • selekcja danych,
  • czyszczenie danych,
  • redukcja liczby cech,
  • transformacja,
  • dyskretyzacja wartości.

Nie zawsze wszystkie kroki są wymagane. Zależy to od jakości danych, od celu, jaki chcemy osiągnąć, ale też bezpośrednio od metod eksploracji, których zamierzamy użyć.

Selekcja danych

Gromadzona jest ogromna liczba danych. W wielu przypadkach część z nich albo nie ma związku z celem prowadzonych analiz, albo jest redundantna (nadmiarowa), czyli niesie taką samą informację. Eliminacja choćby części danych i wybór jedynie istotnych pozwalają nie tylko zmniejszyć nakład pracy w dalszych krokach wstępnego przetwarzania, ale w znaczący sposób mogą wpłynąć na wydajność procesu eksploracji i jakość uzyskiwanych wyników. Tego typu selekcja najczęściej dokonywana jest ręcznie, a dokładna znajomość analizowanego procesu i pełne zrozumienie gromadzonych danych są w tym przypadku niezwykle istotne.

Czyszczenie danych

Rzeczywiste dane prawie zawsze są niedoskonałe. Najczęstszymi niedoskonałościami są pojawiające się braki wartości oraz wartości błędne. Zarówno problem braków, jak i błędnych wartości może być związany m.in. z zakłóceniami w transmisji danych, ze zmianami warunków pomiarów lub z awariami czujników czy torów pomiarowych. Konieczne w tym przypadku staje się wyczyszczenie danych (rys. 1).

Generalnie problem ten można rozwiązać na dwa sposoby:

  • poprzez odrzucenie z dalszej analizy danych zawierających braki,
  • poprzez uzupełnienie brakujących wartości.

Usuwanie braków może się odbywać poprzez usuwanie całych rekordów (co jest dopuszczalne z reguły jedynie wówczas, gdy braki dotyczą stosunkowo niewielkiej liczby przypadków i mamy pewność, że nie będzie to prowadziło do uzyskania tendencyjnych wyników analizy) bądź też poprzez usuwanie wybranych zmiennych (kolumn), gdy to głównie one zawierają braki. Uzupełnienie wartości, zwane często imputacją, oznacza zastąpienie wartości brakującej, w zależności od przypadku, np. wartością średnią danej zmiennej lub medianą, ostatnią zaobserwowaną wartością, wartością określoną na podstawie przypadku „podobnego” lub wartością wyliczoną na podstawie modelu regresji zbudowanego na wartościach pozostałych zmiennych.

W ten sam sposób można postępować przy eliminowaniu błędnych danych. Czyszczenie danych może obejmować również inne działania, takie jak np. wykrywanie i ewentualne usuwanie obserwacji odstających. Zakres prowadzonych w tym kroku czynności zależy m.in. od stosowanych w dalszym etapie metod eksploracji danych. Niektóre z nich (jak np. metoda drzew decyzyjnych) dobrze radzą sobie z danymi, w których występują braki, inne zaś nie dopuszczają takiej możliwości.

Opisane działania nie wyczerpują wszystkich możliwości. W konkretnych przypadkach konieczne może być sięgnięcie do bardziej zaawansowanych metod opisanych w specjalistycznej literaturze.

UiPath

Kluczowe trendy w dziedzinach sztucznej inteligencji i automatyzacji w 2025 r.

Firma UiPath przedstawia czego można się spodziewać w nadchodzącym roku w swoim raporcie Trendy Sztucznej Inteligencji i Automatyzacji 2025. Prognozy UiPath opierają się na szeroko zakrojonej analizie rynku, aktualnych postępach w badaniach nad sztuczną inteligencją i doświadc...

STAL_9-10_24_Bozena_Gajdzik_DLUGOFALOWE_ZMIANY_RYNKOWE_UJECIE_HISTORYCZNE_CZ_II_iStock-1390249924
Partner kategorii:

Transformacja polskiego przemysłu stalowego na europejskim rynku stali. Długofalowe zmiany rynkowe w ujęciu historycznym, cz. II

Z artykułu dowiesz się: czy jest szansa na obniżenie energochłonności w hutach w Polsce; czy przemysł hutniczy inwestuje w innowacyjne rozwiązania;

targi-fastener-poland-miejsce-spotkan-ekspertow-fot-4

Targi FASTENER POLAND® – eksperci branży elementów złącznych z całego świata znowu spotkają się w Krakowie

Targi FASTENER POLAND®, które 25-26 września odbędą się w EXPO Kraków, to jedyne międzynarodowe targi elementów złącznych organizowane w Europie Środkowo-Wschodniej. Od siedmiu lat Targi FASTENER POLAND® są kluczowym forum wymiany do...

Anodowanie-twarde-anodowe-powloki-tlenkowe-na-aluminium-i-jego-stopach-dlaProdukcji.pl
Partner kategorii:

Twarde anodowe powłoki tlenkowe na aluminium i jego stopach

Anodowanie (eloksacja, od „elektrolityczna oksydacja”) – to powierzchniowa obróbka metali polegająca na elektrolitycznym wytworzeniu warstwy tlenku. Anodowanie stosuje się głównie w stosunku do aluminium i jego stopów. Można je także stosować do niektórych odmian stali, tytan...

Prologis Research

7 prognoz dla globalnego łańcucha dostaw w 2025 roku

Prologis Research, korzystając z wieloletniego doświadczenia w branży, własnych danych oraz unikalnej wiedzy na temat nieruchomości magazynowych i ich klientów, przygotował prognozę siedmiu kluczowych trendów dla globalnego łańcucha dostaw w 2025 roku. Coroczne analizy i progn...

STAL_11-12_20_technologie_ciecia_JAKOSC_PROCESU_CIECIA_LASEROWEGO_iStock-177007701
Partner kategorii:

Jakość procesu cięcia laserowego blach stalowych – wpływ zawartości krzemu i innych pierwiastków stopowych

Przeprowadzono analizę czynników i parametrów decydujących o jakości procesu cięcia laserowego. Zestawiono blachy stalowe o gwarantowanej przez producentów jakości cięcia laserowego laser grade steels. Opisano wpływ zawartości krzemu i innych pierwiastków stopowy...

conform-czyli-ciagle-wyciskanie-na-kole-rys-2

Ciągłe wyciskanie na kole (Conform®) – proces i możliwości wyciskania stopów magnezu serii AZ

Ciągłe wyciskanie na kole to proces poddawany wielu badaniom naukowym. Tym razem przyglądamy się badaniom prowadzonym przez Sieć Badawczą Łukasiewicz. Z artykułu dowiesz się:

Współczesne trendy rozwojowe w obróbce skrawaniem

Obróbka skrawaniem w technologii maszyn zajmuje miejsce w grupie obróbki kształtowej – ubytkowej. Jest wiodącą techniką wytwarzania i na razie nic nie wskazuje na to, aby miało się to zmienić. Zastosowanie obróbki skrawaniem jest bardzo szerokie...

analityka danych

Analityka danych ważniejsza dla firm z branży produkcyjnej niż sztuczna inteligencja

Technologia sztucznej inteligencji (44 proc. wskazań) znajduje się dopiero na trzecim miejscu w kontekście innowacji IT wymienianych przez przedstawicieli firm produkcyjnych. Wynika tak z raportu „Cyfryzacja przemysłu: rola zintegrowanych systemów zarządzania w firmach produkc...

fotowoltaika-na-dachach-plaskich-relacja-ze-szkolenia-bogucki

Relacja ze szkolenia „Fotowoltaika na dachach płaskich”

12 września 2024 roku w Strykowie odbyło się szkolenie pt. „Fotowoltaika na dachach płaskich”, zorganizowane przez Stowarzyszenie DAFA. Było to pierwsze takie przedsięwzięcie w Polsce, poświęcone szczegółowym aspektom projektowania i realizacji instalacji fotowoltaicznych na d...

ciecie-plazmowe-analiza-jakosci-powierzchni-ciecia-cz-1-rys-9

Cięcie plazmowe – analiza jakości powierzchni cięcia – cz. 1

W jakich okolicznościach cięcie plazmowe przynosi najwięcej korzyści? Sprawdzamy to w oparciu o badania naukowców z Górnośląskiego Instytutu Technologicznego oraz Politechniki Częstochowskiej. Z artykułu dowiesz się:

Partner kategorii:

Mity w spawalnictwie: video z ekspertem. Część druga.

Serdecznie zapraszamy do obejrzenia drugiej części nagrania o mitach, które krążą w branży spawalniczej. O mitach spawalniczych opowiada ekspertka, Paulina Grabowska-Lisowska – Międzynarodowy Inżynier Spawalnik (IWE), inspektor, ...

elektrownia-jadrowa-stal-do-zastosowan-jadrowych-fot-1

Stale stosowane do budowy urządzeń i konstrukcji elektrowni jądrowych: rodzaje i wymagania jakościowe wg ASME i AFCEN

W obliczu planów budowy elektrowni atomowej w Polsce warto zapoznać się z wytycznymi dotyczącymi stosowanych przy tej budowie materiałów. Z artykułu dowiesz się:

zloty-medal-targow-modernlog-2024-poznaj-laureatow

Znamy laureatów nagrody Złoty Medal targów MODERNLOG 2024

Poznaliśmy produkty wyróżnione prestiżową nagrodą Złotego Medalu na targach Logistyki, Magazynowania i Transportu MODERNLOG 2024 oraz ITM INDUSTRY EUROPE 2024. Laureaci zawalczą teraz o Złoty Medal Wybór Konsumentów. W minionym tygod...

konferencja-practicorr-2025-fot-2
Partner kategorii:

Konferencja PractiCORR 2025

Międzynarodowa konferencja PractiCORR 2025 to nowe wydarzenie, którego pomysłodawcą i organizatorem jest Pols­kie Stowarzyszenie Korozyjne. Konferencja PractiCORR 2025, której tema­tyka skupia się na praktycznych zagadnieniach ochro...

zwiazek-sipur-kongres-trendy

Jakie działania podejmował SIPUR w II połowie 2024 roku?

Jak wyglądały działania Polskiego Związku Producentów i Przetwórców Izolacji Poliuretanowych PUR i PIR „SIPUR” w drugiej połowie ubiegłego roku? Kongres TRENDY 2024, 27-28 listopada 2024, Kraków

Relacje

Katalog produktów

Sklep

STAL Metale & Nowe Technologie 11-12/24

STAL Metale & Nowe Technologie 11-12/24

Zamów
Nowoczesne Hale 1/2024

Nowoczesne Hale 1/2024

Zamów
Utrzymanie Ruchu 1/2024

Utrzymanie Ruchu 1/2024

Zamów
Fastener 1/2024

Fastener 1/2024

Zamów
Metody diagnostyki maszyn i urządzeń w predykcyjnym utrzymaniu ruchu

Metody diagnostyki maszyn i urządzeń w predykcyjnym utrzymaniu ruchu

Zamów
Rozwiązania energooszczędne wykorzystywane w budownictwie wielkopowierzchniowym (e-book)

Rozwiązania energooszczędne wykorzystywane w budownictwie wielkopowierzchniowym (e-book)

Zamów
Gwinty - rodzaje, wymiary, podstawowe obliczenia

Gwinty - rodzaje, wymiary, podstawowe obliczenia

Zamów
Koła zębate – projektowanie, wytwarzanie, pomiary, eksploatacja

Koła zębate – projektowanie, wytwarzanie, pomiary, eksploatacja

Zamów
Inżynieria doskonałości w procesach biznesowych. Przewodnik po teorii i dobrych praktykach

Inżynieria doskonałości w procesach biznesowych. Przewodnik po teorii i dobrych praktykach

Zamów
Metrologia. Wybrane zagadnienia (e-book)

Metrologia. Wybrane zagadnienia (e-book)

Zamów
Przewodnik po technologiach przemysłu 4.0

Przewodnik po technologiach przemysłu 4.0

Zamów
Vademecum projektanta. Budownictwo halowe (e-book)

Vademecum projektanta. Budownictwo halowe (e-book)

Zamów
Poznaj nasze serwisy

Nasze strony wykorzystują pliki cookies. Korzystanie z naszych stron internetowych bez zmiany ustawień przeglądarki dotyczących plików cookies oznacza, że zgadzacie się Państwo na umieszczenie ich w Państwa urządzeniu końcowym. Więcej szczegółów w Polityce prywatności.