Wstępne przetwarzanie danych
Redukcja liczby cech
W przypadku danych, których rozmiar jest znaczny, istotnym krokiem przetwarzania wstępnego jest ograniczenie liczby cech (kolumn) przekazywanych do eksploracji. Zadanie to nosi nazwę redukcji liczby cech i może być wykonane w dwojaki sposób. Pierwszy z nich, zwany selekcją cech, polega na eliminacji nadmiarowych, mało istotnych cech (tzw. cech redundantnych). Drugi zaś, zwany ekstrakcją cech, polega na agregacji cech w mniej liczny zbiór nowych cech.
W pierwszym przypadku poszukiwany jest minimalny zbiór oryginalnych cech reprezentujący wyjściowy zbiór danych w możliwie najwierniejszy sposób. W praktyce oznacza to poszukiwanie pewnego podzbioru cech. Jako że dla n cech całkowita liczba możliwych ich podzbiorów wynosi 2n, przeszukiwanie wyczerpujące jest zwykle mało efektywne, a czasem wręcz niemożliwe. Dlatego stosuje się metody heurystyczne, bazujące m.in. na miarach prawdopodobieństwa (np. analiza kowariancji, korelacji), miarach ilości informacji (wyrażanej m.in. entropią) czy z wykorzystaniem metod inteligencji obliczeniowej, takich jak np. algorytmy genetyczne czy drzewa decyzyjne.
W przypadku ekstrakcji zbiór analizowanych cech jest ograniczany poprzez tworzenie nowych cech będących kombinacją cech wyjściowych. Na przykład zamiast używać dwóch cech takich jak długość i szerokość można wprowadzić nową cechę – pole powierzchni, będącą ich kombinacją, w tym przypadku iloczynem z wagami równymi 1. Nie zawsze jednak jesteśmy w stanie utworzyć cechy mające – tak jak w powyższym przykładzie – interpretację. Niemniej jednak zasada jest podobna. W tym zakresie najbardziej popularnymi metodami są analiza składowych głównych PCA (Principal Component Analysis) oraz analiza czynnikowa. Zwykle jednak cechy te nie mają interpretacji, a wybór sposobu redukcji liczby cech może być podyktowany niekiedy właśnie taką koniecznością.
Redukcja liczby cech, często oprócz usunięcia cech nieniosących istotnych informacji i zmniejszenia złożoności obliczeniowej algorytmów eksploracji, ma jeszcze kilka innych zalet. Ułatwia między innymi zrozumienie wyników ostatecznej analizy oraz zapobiega nadmiernemu dopasowaniu opracowanych modeli do danych.
Mogą zainteresować Cię również
Kluczowe trendy w dziedzinach sztucznej inteligencji i automatyzacji w 2025 r.
Firma UiPath przedstawia czego można się spodziewać w nadchodzącym roku w swoim raporcie Trendy Sztucznej Inteligencji i Automatyzacji 2025. Prognozy UiPath opierają się na szeroko zakrojonej analizie rynku, aktualnych postępach w badaniach nad sztuczną inteligencją i doświadc...
Transformacja polskiego przemysłu stalowego na europejskim rynku stali. Długofalowe zmiany rynkowe w ujęciu historycznym, cz. II
Z artykułu dowiesz się: czy jest szansa na obniżenie energochłonności w hutach w Polsce; czy przemysł hutniczy inwestuje w innowacyjne rozwiązania;
Targi FASTENER POLAND® – eksperci branży elementów złącznych z całego świata znowu spotkają się w Krakowie
Targi FASTENER POLAND®, które 25-26 września odbędą się w EXPO Kraków, to jedyne międzynarodowe targi elementów złącznych organizowane w Europie Środkowo-Wschodniej. Od siedmiu lat Targi FASTENER POLAND® są kluczowym forum wymiany do...
Twarde anodowe powłoki tlenkowe na aluminium i jego stopach
Anodowanie (eloksacja, od „elektrolityczna oksydacja”) – to powierzchniowa obróbka metali polegająca na elektrolitycznym wytworzeniu warstwy tlenku. Anodowanie stosuje się głównie w stosunku do aluminium i jego stopów. Można je także stosować do niektórych odmian stali, tytan...
7 prognoz dla globalnego łańcucha dostaw w 2025 roku
Prologis Research, korzystając z wieloletniego doświadczenia w branży, własnych danych oraz unikalnej wiedzy na temat nieruchomości magazynowych i ich klientów, przygotował prognozę siedmiu kluczowych trendów dla globalnego łańcucha dostaw w 2025 roku. Coroczne analizy i progn...
Jakość procesu cięcia laserowego blach stalowych – wpływ zawartości krzemu i innych pierwiastków stopowych
Przeprowadzono analizę czynników i parametrów decydujących o jakości procesu cięcia laserowego. Zestawiono blachy stalowe o gwarantowanej przez producentów jakości cięcia laserowego laser grade steels. Opisano wpływ zawartości krzemu i innych pierwiastków stopowy...
Ciągłe wyciskanie na kole (Conform®) – proces i możliwości wyciskania stopów magnezu serii AZ
Ciągłe wyciskanie na kole to proces poddawany wielu badaniom naukowym. Tym razem przyglądamy się badaniom prowadzonym przez Sieć Badawczą Łukasiewicz. Z artykułu dowiesz się:
Badanie parametrów dokładnościowych obróbkowego centrum frezarskiego z zastosowaniem normy ISO 10360-2
Tematem artykułu jest badanie parametrów dokładnościowych obróbkowego centrum frezarskiego z zastosowaniem normy 10360-2 używanej do badań odbiorczych i okresowych współrzędnościowych maszyn pomiarowych.
Analityka danych ważniejsza dla firm z branży produkcyjnej niż sztuczna inteligencja
Technologia sztucznej inteligencji (44 proc. wskazań) znajduje się dopiero na trzecim miejscu w kontekście innowacji IT wymienianych przez przedstawicieli firm produkcyjnych. Wynika tak z raportu „Cyfryzacja przemysłu: rola zintegrowanych systemów zarządzania w firmach produkc...
Relacja ze szkolenia „Fotowoltaika na dachach płaskich”
12 września 2024 roku w Strykowie odbyło się szkolenie pt. „Fotowoltaika na dachach płaskich”, zorganizowane przez Stowarzyszenie DAFA. Było to pierwsze takie przedsięwzięcie w Polsce, poświęcone szczegółowym aspektom projektowania i realizacji instalacji fotowoltaicznych na d...
Cięcie plazmowe – analiza jakości powierzchni cięcia – cz. 1
W jakich okolicznościach cięcie plazmowe przynosi najwięcej korzyści? Sprawdzamy to w oparciu o badania naukowców z Górnośląskiego Instytutu Technologicznego oraz Politechniki Częstochowskiej. Z artykułu dowiesz się:
Mity w spawalnictwie: video z ekspertem. Część druga.
Serdecznie zapraszamy do obejrzenia drugiej części nagrania o mitach, które krążą w branży spawalniczej. O mitach spawalniczych opowiada ekspertka, Paulina Grabowska-Lisowska – Międzynarodowy Inżynier Spawalnik (IWE), inspektor, ...
Stale stosowane do budowy urządzeń i konstrukcji elektrowni jądrowych: rodzaje i wymagania jakościowe wg ASME i AFCEN
W obliczu planów budowy elektrowni atomowej w Polsce warto zapoznać się z wytycznymi dotyczącymi stosowanych przy tej budowie materiałów. Z artykułu dowiesz się:
Znamy laureatów nagrody Złoty Medal targów MODERNLOG 2024
Poznaliśmy produkty wyróżnione prestiżową nagrodą Złotego Medalu na targach Logistyki, Magazynowania i Transportu MODERNLOG 2024 oraz ITM INDUSTRY EUROPE 2024. Laureaci zawalczą teraz o Złoty Medal Wybór Konsumentów. W minionym tygod...
Konferencja PractiCORR 2025
Międzynarodowa konferencja PractiCORR 2025 to nowe wydarzenie, którego pomysłodawcą i organizatorem jest Polskie Stowarzyszenie Korozyjne. Konferencja PractiCORR 2025, której tematyka skupia się na praktycznych zagadnieniach ochro...
Jakie działania podejmował SIPUR w II połowie 2024 roku?
Jak wyglądały działania Polskiego Związku Producentów i Przetwórców Izolacji Poliuretanowych PUR i PIR „SIPUR” w drugiej połowie ubiegłego roku? Kongres TRENDY 2024, 27-28 listopada 2024, Kraków
Kalendarium wydarzeń
Relacje
OpenHouse 2024: z wizytą u TRUMPF Polska
TRUMPF Polska z sukcesem zorganizowała Dni Otwarte OpenHouse 2024, które odbyły się 12 i 13 września br. Wydarzenie przyciągnęło ponad 200 gości reprezentują...
Sprawdź więcejPolitechnika Krakowska ma nowe laboratorium
25 kwietnia na Wydziale Mechanicznym Politechniki Krakowskiej odbyło się uroczyste otwarcie Laboratorium Ultraprecyzyjnych Pomiarów Współrzędnościowych. &...
Sprawdź więcejSeminarium Obróbki Laserowej 22 marca 2024
22 marca 2024, podczas targów STOM, odbyło się Seminarium Obróbki Laserowej, organizowane przez Politechnikę Świętokrzyską. Zapraszamy do zapoznania się z fo...
Sprawdź więcejKonferencja „Stal, Metale, Nowe Technologie”
20 marca, drugiego dnia targów STOM, odbyła się konferencja „Stal, Metale, Nowe Technologie”, której organizatorem była redakcja portalu dlaprodukcji.pl i dw...
Sprawdź więcej