Denně volají na Ústav pro jazyk český desítky lidí. Vznikla proto databáze dotazů

Jak se správně píše název nemoci covid-19? Jaký je původ slova brusle? Nebo kterou jazykovou příručku kdy použít? S podobnými dotazy se na jazykovou poradnu Ústavu pro jazyk český (ÚJČ) Akademie věd ČR každý den telefonicky obrací kolem tří desítek lidí. Jejich otázky i odpovědi jazykovědců jsou přitom důležitým materiálem, který o současném jazyku mnohé vypovídá. 

ÚJČ proto s cílem zajistit jeho dokumentaci a zpřístupnění oslovil odborníky z Fakulty aplikovaných věd (FAV) Západočeské univerzity v Plzni. Ti s využitím umělé inteligence telefonické dotazy zpracovali a vytvořili webový portál, kde jsou dostupné a přehledně strukturované. 

„Webová databáze dotazů položených jazykové poradně byla vyvinuta proto, aby si v nich běžný uživatel jazyka mohl najít odpovědi na časté i méně obvyklé dotazy, ale také na otázky týkající se úplně nových jazykových jevů. Jazykovědcům pak databáze pomáhá dotazový materiál systematicky zpracovávat, třídit a prohledávat pro badatelské účely,“ popisuje smysl databáze, dostupné na adrese dotazy.ujc.cas.cz, ředitel ÚJČ Martin Prošek. 

Projekt Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi probíhal v letech 2016–2019 a byl financován z programu Ministerstva kultury ČR určeného na podporu aplikovaného výzkumu a vývoje národní a kulturní identity NAKI II.

Z Fakulty aplikovaných věd se ho účastnili odborníci z katedry kybernetiky, katedry informatiky a výpočetní techniky a z výzkumného centra NTIS. Kybernetici zpracovali zvuková data z telefonních hovorů za roky 2016–2019 a zároveň zajistili, aby proces, založený na využívání umělé inteligence, fungoval automaticky. 

„Náš systém má pomoci lingvistům tím, že telefonní hovor automaticky přepíše a zčásti ho i systematizuje,“ přibližuje vedoucí fakultního týmu Luděk Müller. „Pracovali jsme i s nahrávkami pořízenými před započetím projektu, na těch jsme ale hlavně učili systém otázky třídit,“ doplňuje Petr Salajka z centra NTIS, který pracoval na integraci jednotlivých prvků systému. 

Jakmile pracovník jazykové poradny hovor přijme, spustí se nahrávání a současně se na počítači objeví aplikace určená pro poznámky, které později slouží pro podrobnou anotaci. Každý den po skončení provozu poradny pak systém všechny nahrávky automaticky převede na text a systematizuje je. 

Pokročilou anotaci už provedou sami lingvisté z ÚJČ. Za databází, která jim umožní dotaz podrobně anotovat a uživatelům si ho vyhledat, stojí experti z katedry informatiky a výpočetní techniky FAV. „Naším cílem bylo vytvořit systém, který umožní otázky a odpovědi velmi detailně strukturovat s využitím mnoha atributů,“ říká člen týmu Michal Nykl. 

Jazykovědce umělá inteligence zatím zastoupit nezvládne

Jednotlivé otázky a odpovědi tak lze kategorizovat do podrobného stromového grafu. Díky tomu získá každý dotaz všechny gramatické charakteristiky, které se ho týkají. Ty jsou důležité pro podrobné vyhledávání v dotazech, statistiky a další práci s dotazy.

Na otázku, proč podrobnou anotaci nemůže provést umělá inteligence, říká kybernetik Zbyněk Zajíc:  „I několik tisíc dotazů, které v průběhu projektu lingvisté podrobně klasifikovali, jsou při takto detailní klasifikaci jen jako kapka v moři. Zdaleka nestačí na to, aby umělá inteligence získala o našem jazyku takové poznatky, aby mohla zastoupit jazykovědce.“

Na jazykovou poradnu se obracejí ti, kdo s jazykem pracují ve své profesi, jako jsou učitelé nebo novináři, kteří zároveň svým psaným i ústním vyjadřováním ovlivňují velkou část společnosti. Radu vyhledávají ale také studenti, rodiče školních dětí a ostatní uživatelé jazyka, a to třeba proto, že nemají k dispozici kodifikační příručky, špatně se v nich orientují nebo v nich daný jev ještě nalézt ani nemohou, protože zatím kodifikován nebyl. 

Webová aplikace jazykové poradny, která v současnosti obsahuje více než 28 800 přepisů nahrávek, jim může poradit, aniž by museli telefonovat. Odborná veřejnost ocení, že dotazy se dají strukturovaně vyhledávat a třídit, takže je lze využít pro badatelské účely. 

Jazykovědcům z ÚJČ systém mimo jiné pomáhá odpovídat na stejné dotazy jednotným způsobem, poskytuje jim přehled o problematických jazykových jevech a v souvislosti s tím i materiál užitečný pro tvorbu učebnic. Vidí také, jakým vývojem určitý jazykový jev prochází.