Popis online kurzu Vytváranie atribútov pre Machine Learning v Pythone
Kurz Vytváranie atribútov pre Machine Learning v Pythone vás naučí, ako premeniť surové dáta na hodnotné atribúty, ktoré výrazne zlepšia výkonnosť modelov strojového učenia.
V úvodnej časti kurzu sa dozviete, prečo je potrebné dáta upraviť pred ich použitím v prediktívnych modeloch – tento proces nazývame "feature engineering". Budeme pracovať v knižnici scikit-learn, ktorá je svetovým štandardom v oblasti tvorby modelov strojového učenia.
Pomocou tejto knižnice budete tvoriť z číselných hodnôt numerické atribúty a naučíte sa, ako vyriešiť extrémne hodnoty (outliers), ktoré sa v dátach môžu nachádzať. Keďže prediktívne modely nevedia pracovať s dátami, ktoré sú vo forme textu, ako je napríklad “žltá”, “oranžová”, “červená”, naučíte sa ako tieto hodnoty premeniť na čísla. V závere kurzu si vysvetlíme, že nie všetky atribúty, ktoré sme vytvorili je vhodné použiť v prediktívnom modeli. Naučíte sa techniky na výber tých atribútov, ktoré môžu byť pre model hodnotné v procese nazvanom “feature selection”.
Po absolvovaní tohto kurzu budete teda vedieť všetko potrebné na správne vytváranie a vybratie atribútov na vytvorenie silných a robustných prediktívnych modelov.
Vieme, že najlepšie sa človek naučí nové zručnosti ich praktizovaním, a preto je pre vás pripravených 7 praktických programovacích cvičení v Jupyter notebookoch s úlohami a vysvetleniami jednotlivých konceptov.
Čo sa v kurze Vytváranie atribútov pre Machine Learning v Pythone naučíte
Celkový obsah kurzu je 6 hodín. Prostredie, v ktorom budete počas kurzu programovať sa nazýva Jupyter notebooky s Pythonom. Nižšie je uvedený zoznam oblastí, ktorým sa v kurze venujeme:
-
“Úvod do vytvárania atribútov”: Prvej časti kurzu si vysvetlíme prečo potrebujeme dáta upraviť predým než ich poskytneme prediktívnemu modelu - tento process sa nazýva “feature engineering”.
- “Úvod do stavových transformácií a scikit-learn knižnice”: V tejto časti si ukážeme dôležitý koncept stavových transformácií. Predstavíme si knižnicu scikit-learn, ktorú budeme počas programu používať. Táto knižnica je dnes svetovým štandardom na vytváranie modelov strojového učenia.
-
“Numerické atribúty”: Pomocou rôznych techník sa naučíme ako vytvoriť numerické atribúty prostredníctvom zmeny škály pôvodných numerických dát. Taktiež si vysvetlíme aké problémy môžu spôsobiť extrémne hodnoty (outliers) a naučíme sa ako tieto hodnoty odstraňujeme z dát pomocou knižnice feature_engine.
-
“Kategorické atribúty”: Datasety častokrát obsahujú dáta v podobe krátkeho textu, ako napríklad kategórie. Keďže prediktívne modely nedokážu s textovými dátami pracovať, ukážeme si ako môžeme text premeniť na čísla. Naučíte sa taktiež pracovať s knižnicou category_encoders, pomocou ktorej vieme definovať poradie kategórií, ktoré sa v dátach prirodzene nachádza.
-
“Atribúty času a dátumu”: Datasety častokrát obsahujú dáta, v ktorých je vyjadrený čas udalosti (napríklad, kedy si zákazník zakúpil produkt). Ukážeme si, ako môžeme z týchto dát získať hodnotné atribúty.
-
“Chýbajúce hodnoty”: Datasety občas nie sú kompletné. Ukážeme si ako efektívne a vedecky dokážeme vyriešiť problémy spojené s chýbajúcimi hodnotami tak, aby sme neuškodili nášmu prediktívnemu modelu.
-
“Vyberanie atribútov”: Vytvorili sme už mnoho atribútov, a preto je potrebné z nich vybrať tie, ktoré sú pre prediktívny model hodnotné. Ukážeme si základné techniky filtrovania a vyberania atribútov, ktoré nám pomôžu pri vytváraní silného prediktívneho modelu.
Pre koho je kurz Vytváranie atribútov pre Machine Learning v Pythone vhodný
Kurz Vytváranie atribútov pre Machine Learning v Pythone je vhodný pre všetkých, ktorí majú predchádzajúce skúsenosti s analýzou dát v Pythone a chcú si rozšíriť obzory v Data Science. Kurz je pre vás ideálny, ak smerujete v budúcnosti do Data Science pozície, ktorá vyžaduje schopnosť vytvárať prediktívne modely. V tomto kurze získate nevyhnutné základy na to, aby ste pre tieto prediktívne modely vedeli správne pripraviť dáta, riešiť chýbajúce hodnoty, ktoré sa v datasetoch častokrát nachádzajú a vybrať vhodné atribúty.
Pre úspešné absolvovanie tohto kurzu sa, prosím, uistite, že spĺňate nasledujúce požiadavky:
- zvládate prácu s Jupyter notebookmi,
- dokážete pracovať s knižnicou pandas a spracovávať v nej dáta,
- viete čo sú Numpy polia a zvládate základné operácie s nimi,
- zvládate stredoškolskú matematiku a základy deskriptívnej štatistiky (priemer, medián, modus, variabilita, atď.).
Čo po kurze dokážete a čo si odnesiete?
- Praktické skúsenosti s vytváraním atribútov, ich výberom a so scikit-learn knižnicou, ktorá sa využíva v reálnom svete v rôznych odvetviach.
- Dokážete vhodne a správne pripraviť numerické a kategorické atribúty pre použitie v prediktívnych modeloch.
- Dokážete získať hodnotné atribúty z datasetov, ktoré obsahujú informácie o dátume a čase.
- Viete používať techniky na riešenie chýbajúcich a extrémnych hodnôt v dátach, ktoré môžu byť problém pre prediktívne modely.
- Dokážete aplikovať metódy na vybratie vhodných atribútov.
V prípade, že smerujete v budúcnosti do Data Science pozície, ktorá si vyžaduje schopnosť vedieť tvoriť prediktívne modely, môžete priamo pokračovať do nášho ďalšieho kurzu “Machine learning v Pythone”, ktorý danú tematiku pokrýva.
Čo je potrebné na absolvovanie kurzu?
- Vlastný laptop. Firemný laptop môže spôsobovať problémy, napríklad, pri prístupoch na Google Drive prostredie alebo pri inštalácii knižníc.
- Základná znalosť angličtiny: Minimálne pasívna znalosť na úrovni čítania textu keďže pre knižnice, o ktorých sa budeme učiť sú vytvorené dokumentácie v anglickom jazyku. Všetky video tutoriály sú však v slovenskom jazyku.
- Stabilné internetové pripojenie. Pre sledovanie video lekcií či prácu na cvičeniach je internetové pripojenie neustále potrebné.
- Aktualizovaný internetový prehliadač Google Chrome, Microsoft Edge alebo Mozilla Firefox.
- (odporúčané) Google účet. S Jupyter notebookmi odporúčame pracovať v prostredí Google Colaboratory. V prípade, že Google účet nemáte a ani si ho nechcete zakladať, bude k dispozícii druhá alternatíva na lokálnu prácu s Jupyter notebookmi.
Čo všetko s kurzom Vytváranie atribútov pre Machine Learning v Pythone získate
-
7 Jupyter notebookov, v ktorých si nielen prakticky vyskúšate jednotlivé koncepty, ale môžete ich používať ako osobnú referenciu vo vašom (budúcom) zamestnaní,
-
videotutoriály o Vytváraní atribútov pre Machine Learning v Pythone,
- moderované diskusné fórum, v ktorom na vaše otázky odpovedá autor kurzu Róbert Barcík,
-
certifikát o absolvovaní online kurzu Vytváranie atribútov pre Machine Learning v Pythone
-
garancia vrátenia peňazí do 14 dní v prípade nespokojnosti s kurzom.