Subject description - B6B16ZDA

Summary of Study | Summary of Branches | All Subject Groups | All Subjects | List of Roles | Explanatory Notes               Instructions
B6B16ZDA Basics of data analysis
Roles:PS Extent of teaching:2P+2S+4D
Department:13116 Language of teaching:CS
Guarantors:Dobiáš M. Completion:Z,ZK
Lecturers:Greif K., Náplava P. Credits:5
Tutors:Greif K., Náplava P. Semester:L

Anotation:

Předmět je zaměřený na úvod do datových analýz a vizualizace dat (informací). V první části jsou definovány klíčové pojmy a postupy, spojené s datovou analýzou. Na příkladech je demonstrováno, jakým způsobem se datová analýza provádí, jak mohou vypadat výstupy a interpretace analýz. Včetně možné manipulace a nevhodného použití. Následně je diskutována existence různých typů dat, jejich dostupnost a způsob získávání. V další části jsou prezentovány a prakticky ověřeny tři kategorie nástrojů a s nimi spojených výstupů. První dvě jsou zaměřeny na jednoduché neprogramovací (typicky MS Excel) a programovací nástroje (typicky Python a odpovídající knihovny). Pomocí těchto nástrojů a vybraných statistických metod jsou provedeny jednodušší analýzy, včetně interpretace výstupů Pro srovnání jsou prezentovány i vybrané pokročilejší metody datových analýz, jako například shlukování dat. Poslední část výuky je věnována třetí kategorii nástrojů a také způsobu analýzy, založené na vizualizaci. Přestože vizualizaci umožňují i předchozí dvě kategorie nástrojů, je cílem této části si nejen vyzkoušet, ale také uvědomit, jakým způsobem může být vizualizace pro datovou analýzu přínosná a důležitá. Pro účely vizualizace a praktickou část výuky je využit komplexní nástroj Power BI.

Study targets:

Absolvováním předmětu získá absolvent úvodní znalosti jednotlivých částí cyklu zpracování dat, který odpovídá průmyslovému standardu pro data mining CRISP-DM (Cross-industry standard process for data mining). Tyto základní znalosti jsou dále rozvíjeny v návazném předmětu B6B16MPR, případně návazných magisterských oborech (Datové vědy, Počítačová grafika, Elektroenergetika, ...).

Course outlines:

1. Definice pojmů a principů datových analýz, datová analýza vs. datová věda, způsoby zpracování dat, role datové analýzy v oblasti informačních technologií, data-driven rozhodování.
2. Rozbor vybraných praktických příkladů datových analýz a jejich interpretace – správné vs. nesprávné provedení analýzy, zkreslování informací, hledání užitečných informací, specifikace požadavků na datovou analýzu.
3. Přístupy k provádění datových analýz, obecné metodiky: CRISP-DM, TDSP, specifikace projektu datové analýzy, způsoby získávání dat, datová kvalita.
4. Základní statistické nástroje a postupy, vhodné pro provádění prvotních datových analýz a hledání základních charakteristik datové množiny.
5. Pokročilejší statistické nástroje (postupy), vhodné pro hledání závislostí v datech a hodnocení významnosti vstupních parametrů.
6. Nástroje pro provádění datových analýz - programovací/neprogramovací, principy práce s těmito nástroji.
7. Datové analýzy v prostředí jazyka Python, rozšiřující knihovny pro provádění datových analýz, pokročilejší techniky datových analýz.
8. Datové analýzy v praxi – prezentace vybrané praktické případové studie, analýza prvotního zadání, způsob implementace, praktické přínosy a ukázkové výstupy
9. Pokročilé metody datových analýz, úvod do "Data Science", big data, machine learning.
10. Vizualizace dat, úvod do vizualizace, historie, využití vizualizace pro účely datových analýz, nástroje pro vizualizace – podpora v rámci jazyka Python, kancelářské nástroje, pokročilé nástroje (Power BI).
11. Vybrané způsoby vizualizace dat - typy grafů a jejich využití pro datovou analýzu.
12. Pokročilé způsoby vizualizace dat – datové mapy, infografika a dashboardy.
13. Storytelling, prezentace výstupů datových analýz, založených na příběhu.
14. Porovnání různých způsobů a přístupů k provádění datových analýz, role nejistoty v datových analýzách, vliv nejistoty na výslednou analýzu.

Exercises outline:

1. Úvod do předmětu, definice pojmů a principů pro zpracování dat, existující a dostupné zdroje dat
2. Základní postupy při provádění datových analýz, ad-hoc analýzy
3. Úvod do datových analýz v prostředí MS Excel
4. Cvičení na datové analýzy v Excelu
5. Prezentace výstupů datové analýzy, provedené v Excelu
6. Úvody do datových analazých v prostředí Python, používání knihoven
7. Cvičení datových analýz v prostředí Pythonu
8. Cvičení na datové analýzy v prostředí Python
9. Prezentace datových analýz v prostředí Pythonu
10. Základy vizualizace při analýze dat
11. Seznámení se s nástrojem Power BI pro vizualizaci dat
12. Procvičování vybraných způsobů vizualizace dat v nástroji Power BI
13. Prezentace výstupů 3. domácího úkolu
14. Uzavření semestru, rezerva

Literature:

Tamara Munzner , Visualization Analysis and Design, A K Peters/CRC Press, 2014 Hector Cuesta, Analýza dat v praxi, COMPUTER PRESS, 2015 Wes McKinney, Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2017

Requirements:

Studenti během výuky zpracovávají průběžně menší samostatné úkoly a jeden větší semestrální projekt, v rámci kterých si ověří schopnost provést vybrané postupy analýzy dat. Všechny úkoly jsou uzavřeny prezentací dosažených výstupů. Celý předmět je zakončený zkouškou, v rámci které jsou ověřeny obecné znalosti základů datových analýz a na vybraném příkladu schopnost jejich praktické aplikace studenty.

Subject is included into these academic programs:

Program Branch Role Recommended semester
BPSIT_2021 Common courses PS 4
BPSIT3_2021 Business informatics PS 4


Page updated 29.3.2024 07:54:56, semester: Z/2024-5, Z,L/2023-4, Send comments about the content to the Administrators of the Academic Programs Proposal and Realization: I. Halaška (K336), J. Novák (K336)