Wstępne przetwarzanie danych
Zbiory danych mogą stać się cennym źródłem wiedzy. Aby tak się jednak stało, musimy we właściwy sposób podejść do ich analizy. Proces analizy danych składa się z kilku etapów (opisanych w nr. 1/2020 „Utrzymania Ruchu” w artykule Analiza dużych zbiorów danych). Kluczowym etapem jest etap wstępnego przetwarzania danych, który bezpośrednio poprzedza etap eksploracji i jest często etapem najbardziej pracochłonnym.
Właściwie przeprowadzone wstępne przetwarzanie nie tylko usprawnia proces eksploracji, ale też w znaczący sposób poprawia możliwości interpretacji uzyskanych wyników.
Wstępne przetwarzanie danych składa się z kilku kroków, takich jak:
- selekcja danych,
- czyszczenie danych,
- redukcja liczby cech,
- transformacja,
- dyskretyzacja wartości.
Nie zawsze wszystkie kroki są wymagane. Zależy to od jakości danych, od celu, jaki chcemy osiągnąć, ale też bezpośrednio od metod eksploracji, których zamierzamy użyć.
Selekcja danych
Gromadzona jest ogromna liczba danych. W wielu przypadkach część z nich albo nie ma związku z celem prowadzonych analiz, albo jest redundantna (nadmiarowa), czyli niesie taką samą informację. Eliminacja choćby części danych i wybór jedynie istotnych pozwalają nie tylko zmniejszyć nakład pracy w dalszych krokach wstępnego przetwarzania, ale w znaczący sposób mogą wpłynąć na wydajność procesu eksploracji i jakość uzyskiwanych wyników. Tego typu selekcja najczęściej dokonywana jest ręcznie, a dokładna znajomość analizowanego procesu i pełne zrozumienie gromadzonych danych są w tym przypadku niezwykle istotne.
Czyszczenie danych
Rzeczywiste dane prawie zawsze są niedoskonałe. Najczęstszymi niedoskonałościami są pojawiające się braki wartości oraz wartości błędne. Zarówno problem braków, jak i błędnych wartości może być związany m.in. z zakłóceniami w transmisji danych, ze zmianami warunków pomiarów lub z awariami czujników czy torów pomiarowych. Konieczne w tym przypadku staje się wyczyszczenie danych (rys. 1).
Generalnie problem ten można rozwiązać na dwa sposoby:
- poprzez odrzucenie z dalszej analizy danych zawierających braki,
- poprzez uzupełnienie brakujących wartości.
Usuwanie braków może się odbywać poprzez usuwanie całych rekordów (co jest dopuszczalne z reguły jedynie wówczas, gdy braki dotyczą stosunkowo niewielkiej liczby przypadków i mamy pewność, że nie będzie to prowadziło do uzyskania tendencyjnych wyników analizy) bądź też poprzez usuwanie wybranych zmiennych (kolumn), gdy to głównie one zawierają braki. Uzupełnienie wartości, zwane często imputacją, oznacza zastąpienie wartości brakującej, w zależności od przypadku, np. wartością średnią danej zmiennej lub medianą, ostatnią zaobserwowaną wartością, wartością określoną na podstawie przypadku „podobnego” lub wartością wyliczoną na podstawie modelu regresji zbudowanego na wartościach pozostałych zmiennych.
W ten sam sposób można postępować przy eliminowaniu błędnych danych. Czyszczenie danych może obejmować również inne działania, takie jak np. wykrywanie i ewentualne usuwanie obserwacji odstających. Zakres prowadzonych w tym kroku czynności zależy m.in. od stosowanych w dalszym etapie metod eksploracji danych. Niektóre z nich (jak np. metoda drzew decyzyjnych) dobrze radzą sobie z danymi, w których występują braki, inne zaś nie dopuszczają takiej możliwości.
Opisane działania nie wyczerpują wszystkich możliwości. W konkretnych przypadkach konieczne może być sięgnięcie do bardziej zaawansowanych metod opisanych w specjalistycznej literaturze.
Mogą zainteresować Cię również

Innowacyjne rozwiązania dla przemysłu – zapraszamy na nasze stoisko podczas targów STOM 2025!
Już niebawem spotkamy się na jednym z najważniejszych wydarzeń branży obróbki metalu – targach STOM w Kielcach. To wyjątkowa okazja, by w jednym miejscu zobaczyć najnowsze technologie, sprawdzić innowacyjne maszyny w akcji i porozmawiać z ekspertami, którzy na co dzień wspiera...
Transformacja polskiego przemysłu stalowego na europejskim rynku stali. Długofalowe zmiany rynkowe w ujęciu historycznym, cz. II
Z artykułu dowiesz się: czy jest szansa na obniżenie energochłonności w hutach w Polsce; czy przemysł hutniczy inwestuje w innowacyjne rozwiązania;

Innowacje w sercu targów Fastener Fair Global 2025
25-27 marca specjaliści z branży spotkają się w Stuttgarcie na 10. edycji targów Fastener Fair Global – międzynarodowego flagowego wydarzenia dla światowej branży elementów złącznych i mocowań. Po rekordowej frekwencji w 2023 roku, odwiedzający mogą sp...
Wpływ promieniowania na mikrostrukturę i właściwości materiałów
Jakie materiały są stosowane w lekkowodnych reaktorach jądrowych? Artykuł przedstawia wpływ promieniowania na zmianę struktury i właściwości tych materiałów.

Województwo zachodniopomorskie –hub logistyczny z potencjałem wzrostu
W 2024 r. całkowity wolumen aktywności najemców wyniósł 174 tys. mkw. (-23% r/r), co przy braku oddanych w ostatnich 12 miesiącach nowych inwestycji obniżyło współczynnik powierzchni niewynajętej do 2,8%. Polska firma doradcza na rynku nieruchomości komercyjnych prezentuje rap...
Jakość procesu cięcia laserowego blach stalowych – wpływ zawartości krzemu i innych pierwiastków stopowych
Przeprowadzono analizę czynników i parametrów decydujących o jakości procesu cięcia laserowego. Zestawiono blachy stalowe o gwarantowanej przez producentów jakości cięcia laserowego laser grade steels. Opisano wpływ zawartości krzemu i innych pierwiastków stopowy...

Prasy krawędziowe TruBend 1000. Połączenie prostoty obsługi i wysokiej wydajności
Firma TRUMPF, znany i ceniony producent maszyn do obróbki blach (m.in.: wykrawanie, gięcie, cięcie i spawanie laserowe), już od 1989 roku jest dostawcą technologii gięcia z wykorzystaniem nowoczesnych pras krawędziowych.

Wpływ chłodziwa i oprawki narzędziowej na chropowatość powierzchni obrabianej w procesie frezowania stali Vanadis 4
Artykuł prezentuje wyniki badań eksperymentalnych procesu frezowania stali Vanadis 4 Extra w rożnych warunkach doprowadzenia chłodziwa do strefy obróbki oraz pokazuje, jak ważny jest dobór odpowiedniej oprawki narzędziowej do określonych zadań obróbkowych. ...

Analityka danych ważniejsza dla firm z branży produkcyjnej niż sztuczna inteligencja
Technologia sztucznej inteligencji (44 proc. wskazań) znajduje się dopiero na trzecim miejscu w kontekście innowacji IT wymienianych przez przedstawicieli firm produkcyjnych. Wynika tak z raportu „Cyfryzacja przemysłu: rola zintegrowanych systemów zarządzania w firmach produkc...

Wybrane problemy stateczności w projektowaniu konstrukcji według Eurokodów
Zagadnienia stateczności konstrukcji budowlanych stanowią jeden z trudniejszych działów mechaniki budowli, z którym projektanci konstrukcji zmagają się na co dzień. Niezależnie od tego, czy projektujemy klasyczną drewnianą więźbę dachową, stalową belkę podsuwnicową, czy też sł...

Precyzyjne cięcie bez kompromisów. Najnowsze wersje mieszalników gazowych MyEMIX 3.0
Wycinarki laserowe w technologii fiber zyskały ogromną popularność na całym świecie dzięki swojej wysokiej wydajności i precyzji. Jednym z kluczowych aspektów cięcia laserowego jest wybór odpowiedniej technologii cięcia oraz gazu pro...
Fizyczne i technologiczne podstawy procesu spawania łukowego w osłonie gazowej GMA – cz. 2
W drugiej części artykułu przedstawiono technologiczne podstawy spawania GMA. Z artykułu dowiesz się:

Charakterystyka badań ultradźwiękowych – wiadomości wstępne
Grupa metod badań nieniszczących (NDT, z ang. non-destructive testing) udostępnia szereg różnych sposobów wyznaczania wybranych cech diagnozowanych obiektów. Czym charakteryzują się badania ultradźwiękowe?

Znamy laureatów nagrody Złoty Medal targów MODERNLOG 2024
Poznaliśmy produkty wyróżnione prestiżową nagrodą Złotego Medalu na targach Logistyki, Magazynowania i Transportu MODERNLOG 2024 oraz ITM INDUSTRY EUROPE 2024. Laureaci zawalczą teraz o Złoty Medal Wybór Konsumentów. W minionym tygod...
IGP-DURA®one 56 i IGP-Effectives®: synergia zapewniająca wysoką wydajność w technologii malowania proszkowego
W branży farb proszkowych do ochrony powierzchni kluczowe znaczenie mają wydajność, zrównoważony rozwój i jednolity odcień. Firma IGP Powder Coatings podjęła znaczący krok w tym kierunku, łącząc serię niskotemperaturowych farb proszkowych IGP-DURA®one56 z unikalną technologią ...

RODO w przemyśle – jak nowe technologie wpływają na ochronę danych osobowych?
Dynamiczny rozwój technologiczny jest obecnie widoczny w niemal każdym obszarze życia. Choć coraz większy udział i znaczenie robotyki oraz automatyzacji w procesie produkcyjnym niosą ze sobą wiele korzyści, należy również uwzględnić wyzwania związane z wprowadzaniem nowoczesny...
Kalendarium wydarzeń
Relacje
OpenHouse 2024: z wizytą u TRUMPF Polska
TRUMPF Polska z sukcesem zorganizowała Dni Otwarte OpenHouse 2024, które odbyły się 12 i 13 września br. Wydarzenie przyciągnęło ponad 200 gości reprezentują...
Sprawdź więcejPolitechnika Krakowska ma nowe laboratorium
25 kwietnia na Wydziale Mechanicznym Politechniki Krakowskiej odbyło się uroczyste otwarcie Laboratorium Ultraprecyzyjnych Pomiarów Współrzędnościowych. &...
Sprawdź więcejSeminarium Obróbki Laserowej 22 marca 2024
22 marca 2024, podczas targów STOM, odbyło się Seminarium Obróbki Laserowej, organizowane przez Politechnikę Świętokrzyską. Zapraszamy do zapoznania się z fo...
Sprawdź więcejKonferencja „Stal, Metale, Nowe Technologie”
20 marca, drugiego dnia targów STOM, odbyła się konferencja „Stal, Metale, Nowe Technologie”, której organizatorem była redakcja portalu dlaprodukcji.pl i dw...
Sprawdź więcej