Vytváranie atribútov pre Machine Learning v Pythone

6h 12min
Čas
40
Kapitol
Programovanie
Kategória
-
Hodnotenie
Mierne pokročilý
Level
slovenský
Jazyk kurzu

Popis online kurzu Vytváranie atribútov pre Machine Learning v Pythone

Kurz Vytváranie atribútov pre Machine Learning v Pythone vás naučí, ako premeniť surové dáta na hodnotné atribúty, ktoré výrazne zlepšia výkonnosť modelov strojového učenia.

V úvodnej časti kurzu sa dozviete, prečo je potrebné dáta upraviť pred ich použitím v prediktívnych modeloch – tento proces nazývame "feature engineering". Budeme pracovať v knižnici scikit-learn, ktorá je svetovým štandardom v oblasti tvorby modelov strojového učenia.

Pomocou tejto knižnice budete tvoriť z číselných hodnôt numerické atribúty a naučíte sa, ako vyriešiť extrémne hodnoty (outliers), ktoré sa v dátach môžu nachádzať. Keďže prediktívne modely nevedia pracovať s dátami, ktoré sú vo forme textu, ako je napríklad “žltá”, “oranžová”, “červená”, naučíte sa ako tieto hodnoty premeniť na čísla. V závere kurzu si vysvetlíme, že nie všetky atribúty, ktoré sme vytvorili je vhodné použiť v prediktívnom modeli. Naučíte sa techniky na výber tých atribútov, ktoré môžu byť pre model hodnotné v procese nazvanom “feature selection”.

Po absolvovaní tohto kurzu budete teda vedieť všetko potrebné na správne vytváranie a vybratie atribútov na vytvorenie silných a robustných prediktívnych modelov.  

Vieme, že najlepšie sa človek naučí nové zručnosti ich praktizovaním, a preto je pre vás pripravených 7 praktických programovacích cvičení v Jupyter notebookoch s úlohami a vysvetleniami jednotlivých konceptov.

Čo sa v kurze Vytváranie atribútov pre Machine Learning v Pythone naučíte

Celkový obsah kurzu je 6 hodín. Prostredie, v ktorom budete počas kurzu programovať sa nazýva Jupyter notebooky s Pythonom. Nižšie je uvedený zoznam oblastí, ktorým sa v kurze venujeme:

  • “Úvod do vytvárania atribútov”: Prvej časti kurzu si vysvetlíme prečo potrebujeme dáta upraviť predým než ich poskytneme prediktívnemu modelu - tento process sa nazýva “feature engineering”.
  • “Úvod do stavových transformácií a scikit-learn knižnice”: V tejto časti si ukážeme dôležitý koncept stavových transformácií. Predstavíme si knižnicu scikit-learn, ktorú budeme počas programu používať. Táto knižnica je dnes svetovým štandardom na vytváranie modelov strojového učenia.
  • “Numerické atribúty”: Pomocou rôznych techník sa naučíme ako vytvoriť numerické atribúty prostredníctvom zmeny škály pôvodných numerických dát. Taktiež si vysvetlíme aké problémy môžu spôsobiť extrémne hodnoty (outliers) a naučíme sa ako tieto hodnoty odstraňujeme z dát pomocou knižnice feature_engine.
  • “Kategorické atribúty”: Datasety častokrát obsahujú dáta v podobe krátkeho textu, ako napríklad kategórie. Keďže prediktívne modely nedokážu s textovými dátami pracovať, ukážeme si ako môžeme text premeniť na čísla. Naučíte sa taktiež pracovať s knižnicou category_encoders, pomocou ktorej vieme definovať poradie kategórií, ktoré sa v dátach prirodzene nachádza. 
  • “Atribúty času a dátumu”: Datasety častokrát obsahujú dáta, v ktorých je vyjadrený čas udalosti (napríklad, kedy si zákazník zakúpil produkt). Ukážeme si, ako môžeme z týchto dát získať hodnotné atribúty. 
  • “Chýbajúce hodnoty”: Datasety občas nie sú kompletné. Ukážeme si ako efektívne a vedecky dokážeme vyriešiť problémy spojené s chýbajúcimi hodnotami tak, aby sme neuškodili nášmu prediktívnemu modelu.
  • “Vyberanie atribútov”: Vytvorili sme už mnoho atribútov, a preto je potrebné z nich vybrať tie, ktoré sú pre prediktívny model hodnotné. Ukážeme si základné techniky filtrovania a vyberania atribútov, ktoré nám pomôžu pri vytváraní silného prediktívneho modelu.

Pre koho je kurz Vytváranie atribútov pre Machine Learning v Pythone vhodný

Kurz Vytváranie atribútov pre Machine Learning v Pythone je vhodný pre všetkých, ktorí majú predchádzajúce skúsenosti s analýzou dát v Pythone a chcú si rozšíriť obzory v Data Science. Kurz je pre vás ideálny, ak smerujete v budúcnosti do Data Science pozície, ktorá vyžaduje schopnosť vytvárať prediktívne modely. V tomto kurze získate nevyhnutné základy na to, aby ste pre tieto prediktívne modely vedeli správne pripraviť dáta, riešiť chýbajúce hodnoty, ktoré sa v datasetoch častokrát nachádzajú a vybrať vhodné atribúty.

Pre úspešné absolvovanie tohto kurzu sa, prosím, uistite, že spĺňate nasledujúce požiadavky:
  • zvládate prácu s Jupyter notebookmi,
  • dokážete pracovať s knižnicou pandas a spracovávať v nej dáta,
  • viete čo sú Numpy polia a zvládate základné operácie s nimi,
  • zvládate stredoškolskú matematiku a základy deskriptívnej štatistiky (priemer, medián, modus, variabilita, atď.).

Kurz je vhodný pre absolventov nášho kurzu “Spracovanie dát v Pythone”.

Čo po kurze dokážete a čo si odnesiete?


  • Praktické skúsenosti s vytváraním atribútov, ich výberom a so scikit-learn knižnicou, ktorá sa využíva v reálnom svete v rôznych odvetviach.
  • Dokážete vhodne a správne pripraviť numerické a kategorické atribúty pre použitie v prediktívnych modeloch. 
  • Dokážete získať hodnotné atribúty z datasetov, ktoré obsahujú informácie o dátume a čase. 
  • Viete používať techniky na riešenie chýbajúcich a extrémnych hodnôt v dátach, ktoré môžu byť problém pre prediktívne modely. 
  • Dokážete aplikovať metódy na vybratie vhodných atribútov.

V prípade, že smerujete v budúcnosti do Data Science pozície, ktorá si vyžaduje schopnosť vedieť tvoriť prediktívne modely, môžete priamo pokračovať do nášho ďalšieho kurzu “Machine learning v Pythone”, ktorý danú tematiku pokrýva.

Čo je potrebné na absolvovanie kurzu?

  • Vlastný laptop. Firemný laptop môže spôsobovať problémy, napríklad, pri prístupoch na Google Drive prostredie alebo pri inštalácii knižníc.
  • Základná znalosť angličtiny: Minimálne pasívna znalosť na úrovni čítania textu keďže pre knižnice, o ktorých sa budeme učiť sú vytvorené dokumentácie v anglickom jazyku. Všetky video tutoriály sú však v slovenskom jazyku.
  • Stabilné internetové pripojenie. Pre sledovanie video lekcií či prácu na cvičeniach je internetové pripojenie neustále potrebné.
  • Aktualizovaný internetový prehliadač Google Chrome, Microsoft Edge alebo Mozilla Firefox.
  • (odporúčané) Google účet. S Jupyter notebookmi odporúčame pracovať v prostredí Google Colaboratory. V prípade, že Google účet nemáte a ani si ho nechcete zakladať, bude k dispozícii druhá alternatíva na lokálnu prácu s Jupyter notebookmi.

Čo všetko s kurzom Vytváranie atribútov pre Machine Learning v Pythone získate

  • 7 Jupyter notebookov, v ktorých si nielen prakticky vyskúšate jednotlivé koncepty, ale môžete ich používať ako osobnú referenciu vo vašom (budúcom) zamestnaní,
  • videotutoriály o Vytváraní atribútov pre Machine Learning v Pythone,
  • moderované diskusné fórum, v ktorom na vaše otázky odpovedá autor kurzu Róbert Barcík,
  • certifikát o absolvovaní online kurzu Vytváranie atribútov pre Machine Learning v Pythone
  • garancia vrátenia peňazí do 14 dní v prípade nespokojnosti s kurzom.

Zoznam kapitol

Vitajte v kurze!
O tomto kurze
Dostupné len po zakúpení prístupu
Nastavovanie prostredia a materiály na stiahnutie
Dostupné len po zakúpení prístupu
1. Úvod do vytvárania atribútov
Čo je vytváranie atribútov?
Dostupné len po zakúpení prístupu
Modely sa spoliehajú na nás
Dostupné len po zakúpení prístupu
Tri piliere vytvárania atribútov
Dostupné len po zakúpení prístupu
Atribúty, ktoré budeme vytvárať
Dostupné len po zakúpení prístupu
Atribúty, ktoré NEbudeme vytvárať
Dostupné len po zakúpení prístupu
2. Úvod do stavových transformácií a scikit-learn knižnice
Stavové transformácie
Dostupné len po zakúpení prístupu
Ahoj sklearn!
Dostupné len po zakúpení prístupu
3. Numerické atribúty
Základná intuícia numerických atribútov
Dostupné len po zakúpení prístupu
Modely a škály
Dostupné len po zakúpení prístupu
Škálovanie pomocou knižnice sklearn
Dostupné len po zakúpení prístupu
Outliers (extrémne hodnoty)
Dostupné len po zakúpení prístupu
Práca s outliermi v sklearn
Dostupné len po zakúpení prístupu
Notebook o Numerických atribútoch
Dostupné len po zakúpení prístupu
4. Kategorické atribúty
Čo sú kategorické atribúty?
Dostupné len po zakúpení prístupu
Kardinalita kategorických atribútov
Dostupné len po zakúpení prístupu
Problémy s vysokou kardinalitou
Dostupné len po zakúpení prístupu
Enkódovanie kategorického atribútu
Dostupné len po zakúpení prístupu
Ordinálne enkódovanie
Dostupné len po zakúpení prístupu
Enkódovanie pomocou dedikovaného dátového typu
Dostupné len po zakúpení prístupu
One-hot enkódovanie
Dostupné len po zakúpení prístupu
Lexicographical enkódovanie
Dostupné len po zakúpení prístupu
Vzácne hodnoty v kategorických atribútoch
Dostupné len po zakúpení prístupu
Notebook o kategorických atribútoch
Dostupné len po zakúpení prístupu
5. Atribúty dátumu a času
Atribúty dátumu a času
Dostupné len po zakúpení prístupu
6. Chýbajúce hodnoty
Úvod do chýbajúcich hodnôt
Dostupné len po zakúpení prístupu
Stratégie chýbajúcich hodnôt
Dostupné len po zakúpení prístupu
Riešenia chýbajúcich hodnôt
Dostupné len po zakúpení prístupu
Chýbajúce hodnoty v sklearn
Dostupné len po zakúpení prístupu
Notebook o chýbajúcich hodnotách
Dostupné len po zakúpení prístupu
7. Vyberanie atribútov
Vyberanie atribútov
Dostupné len po zakúpení prístupu
Výber atribútov je dôležitý
Dostupné len po zakúpení prístupu
Konštantné a kvázi-konštantné atribúty
Dostupné len po zakúpení prístupu
Duplikované a korelované atribúty
Dostupné len po zakúpení prístupu
Filter metódy
Dostupné len po zakúpení prístupu
Wrapper metódy
Dostupné len po zakúpení prístupu
Embedded metódy
Dostupné len po zakúpení prístupu
Čo ďalej?
Diskusia a hodnotenie
Dostupné len po zakúpení prístupu
Gratulujem! Čo ďalej?
Dostupné len po zakúpení prístupu

Pozri aj tieto kurzy

10 Online kurzov
1 Príspevkov
Prejsť na kanál