Summary of Study |
Summary of Branches |
All Subject Groups |
All Subjects |
List of Roles |
Explanatory Notes
Instructions
Anotation:
V předmětu se studenti seznámí se standardními, základními, převážně statistickými, metodami v oblasti zpracování přirozeného jazyka (NLP). Studenti si po teoretické i implementační stránce osvojí potřebné techniky a seznámí se jak se základními komponentami jako jsou korpusy a jazykové modely, tak s komplexními koncovými aplikacemi NLP, například strojovým překladem.
Study targets:
Cílem je uvést studenty do problematiky zpracování přirozeného jazyka, běžně zahrnuté v computer science programech světových universit. Předmět bude vyučován odborníky z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy v Praze. Absolvování předmětu rovněž rozšíří stávající vhled studenta do oblasti umělé inteligence a strojového učení.
Content:
Obsah předmětu tvoří čtyři na sebe navazující segmenty:
a) | | úvod, pravděpodobnostní modely, data pro NLP |
b) | | morfologická a syntaktická analýza |
c) | | strojový překlad |
d) | | vyhledávání informací. |
Cvičení a přednášky jsou v daném týdnu tematicky těsně propojeny.
Course outlines:
1. | | Motivace pro NLP. Základní pojmy pravděpodobnostního modelování a teorie informace. |
2. | | Jazykové modely a jejich vyhlazování. |
3. | | Skryté markovovské modely. |
4. | | Zdroje lingvistických dat, experiment v NLP. |
5. | | Morfologické značkování. |
6. | | Syntaktická analýza. |
7. | | Přehled přístupů ke strojovému překladu. |
8. | | Statistický strojový překlad. |
9. | | Lingvistické rysy ve strojovém překladu. |
10. | | Vyhledávání informací. |
11. | | Váhy termů. |
12. | | Klasifikace a shluková analýza dokumentů. |
13. | | Vektorové modely (word embeddings) |
14. | | Závěrečný písemný test |
Exercises outline:
1. | | Zpracování textu na příkazové řádce bash, základní nástroje. |
2. | | Kódování znaků národních abeced, jednoduchý korpus a jeho tokenizace. |
3. | | Výpočet jazykového modelu. |
4. | | Evaluační míry v NLP. |
5. | | Seznámení s Českým národním korpusem. |
6. | | Seznámení se syntakticky značkovanými korpusy. |
7. | | Práce s paralelním korpusem. |
8. | | Práce s překladovým systémem Moses. |
9. | | Moses, pokračování. |
10. | | Konstrukce indexu. |
11. | | Výpočet váhy termů. |
12. | | Klasifikace dokumentů. |
13. | | Vektorové modely. |
14. | | Závěrečný písemný test |
Literature:
Elektronické studijní materiály dodané k jednotlivým přednáškám.
Doporučená literatura nad rámec základních požadavků:
Manning C. D., Schuetze, H.: Foundations of Statistical Natural Language Processing.MIT Press, Cambridge, 1999
Koehn, P.: Statistical Machine Translation. Cambridge University Press New York, 2010.
Manning, C., Raghavan, P., Schuetze, H.:Introduction to Information Retrieval. Cambridge University Press, 2008.
Requirements:
Nejsou vyžadovány žádné speciální znalosti překračující obecný informatický základ. Výhodou je orientace studenta v pravděpodobnostních metodách a strojovém učení, nicméně všechny potřebné základní pojmy budou zopakovány na úvodních přednáškách.
Z hlediska cvičení je nezbytností dobrá znalost alespoň jednoho programovacího jazyka použitelného v unixovém prostředí.
Webpage:
http://ufal.mff.cuni.cz/~zabokrtsky/tmp/fel/index.html
Keywords:
zpracování přirozeného jazyka, natural language processing, NLP
Subject is included into these academic programs:
Page updated 26.2.2021 17:52:17, semester: Z/2020-1, L/2021-2, L/2020-1, Z/2021-2, Send comments about the content to the Administrators of the Academic Programs |
Proposal and Realization: I. Halaška (K336), J. Novák (K336) |