Srovnání antiplagiátorských systémů: Všemocné zdaleka nejsou

Umělá inteligence nahrazuje čím dál více odvětví. Ale spoléhat se například při kontrole studentských prací jen na antiplagiátorské systémy stále není dobré řešení. Programy vyučujícím sice práci usnadní, ale žádný systém ještě neumí rozpoznat podvod dokonale. Ukázalo to srovnání patnácti antiplagiátorských systémů v osmi jazycích.

Posouzení toho, zda jde o plagiátorství a jak je závažné, je i v době sofistikovaných a široce užívaných antiplagiátorských systémů stále na vyučujících, vyplynulo z workshopu vedeného expertem a expertkou z Mendelovy univerzity v Brně. 

Dita Henek Dlabolová a Tomáš Foltýnek představili výsledky dosud nejrozsáhlejšího testování systémů na detekci plagiátorství. Jejich cílem bylo zjistit, jak moc se programy hodí k užívání v univerzitním prostředí.

Analyzovali patnáct systémů s využitím dokumentů v osmi jazycích a třech nejběžnějších formátech, tedy .txt, word, PDF. Hledali různé typy plagiátorství – od prosté kopie přes záměny slov za synonyma, parafráze až po překladové plagiátorství. Zaměřili se na nejběžnější zdroje, ať už jde o Wikipedii, open access články nebo studentské práce dostupné z webů univerzit.

Procenta nic neřeknou

Podle Tomáše Foltýnka, předsedy European Network for Academic Integrity, nemají procenta shody prezentovaná antiplagiátorskými systémy moc velkou informační hodnotu. Některé z nich dokonce vykazují různé výsledky, pokud do nich nahrajeme stejné materiály třeba o půlhodinu později.

„Týká se to spíše méně kvalitních systémů. Turnitin nebo PlagScan budou mít procenta stejná. Mnohé systémy ale nemají vlastní databázi, a tak náhodně vyberou fragmenty textu, které potom pošlou do internetového vyhledávače a vyhodnotí podobnost s dokumenty, které jim vyhledávač vrátí. Jiný výběr fragmentů textu pak vede k jiné procentuální shodě,“ vysvětluje Foltýnek. Problém pak podle něj nastane, když má škola nastavené procesy, které závisejí jen na procentech shody. 

Velmi silné jsou naopak jednotlivé systémy při odhalování zkopírovaných vět z Wikipedie.

„V tomto případě najdou prakticky všechno, Wikipedii mají zaindexovanou. Procenta shody se ale významně liší mezi jednotlivými systémy podle toho, zda mají daný zdroj zaindexovaný, tedy najdou celou shodu, nebo ne. Pak najdou třeba jen náhodné fragmenty, které se shodují s jiným zdrojem,“ dodává.

Antiplagiátorské systémy odhalí pouze prostou shodu v textech, které srovnáváme. Už při jednoduché záměně slov za synonyma použitelnost jednotlivých systémů významně klesá. Při parafrázích textů klesá úspěšnost odhalení shody ještě více. 

„V mnoha případech se pak už původní zdroj nepodaří dohledat. U překladů je to pak ještě zřetelnější. Téměř žádný ze systémů není schopný překlady odhalit, s výjimkou albánského systému Akademia, který má ale zase poměrně malou databázi zdrojů,“ popisuje zkušenosti Foltýnek.

Překladové plagiátorství je podle Foltýnka možné najít hlavně díky textové shodě v titulcích nebo seznamu literatury. Také pokud student či studentka zapomene přeložit titulek pod obrázkem, dá se podle toho identifikovat původní zdroj. Shoda v procentech je sice malá, ale překladem se nakonec dá zjistit, že to plagiátorství je.

 „Je ale potřeba posouzení člověkem,“ říká Foltýnek. Podle něj je tak zcela zřejmé, že žádný antiplagiátorský systém nesmíme přeceňovat. 

I software má preventivní funkci

Podle Jana Macha, který na VŠE zajišťuje podporu kontroly originality textů, je nicméně důležitá i preventivní funkce antiplagiátorského softwaru: „Pokud jsou si studenti vědomi, že jejich práce bude kontrolována antiplagiátorským systémem, kladou při přípravě textu daleko větší pozornost správnému citování zdrojů.“ 

Na VŠE kontrolují softwarem nejen seminární a závěrečné kvalifikační práce studentů a studentek, ale i časopisecké články a publikace. Využívají pro tyto účely systémy Masarykovy univerzity Theses.cz a Odevzdej.cz v kombinaci se zahraničním systémem iThenticate od společnosti Turnitin. Zatímco na systému iThenticate vyzdvihuje Mach kvalitu kontrol anglických textů, systémy Masarykovy univerzity oceňuje pro jejich rozsáhlou databázi českých seminárních a závěrečných kvalifikačních prací.

Fúze čtyř systémů v jediný 

V testu publikovaném i v International Journal of Educational Technology in Higher Education dopadly nejlépe Turnitin, Unicheck, PlagScan nebo Urkund, experti a expertky ale testovali jen ty systémy, které k tomu svolily, český Theses tak třeba mezi posuzovanými nebyl. 

Trh s antiplagiátorskými systémy se nicméně neustále vyvíjí a čtyři v testu nejúspěšnější mají brzy skončit pod jedním majitelem. Fúzi nyní posuzují antimonopolní orgány. Případná ztráta konkurence na trhu pak může vést k poklesu kvality. 

Kromě placených systémů lze na internetu najít i mnoho programů, které nabízejí porovnání shody zdarma. Před nimi Foltýnek varuje: univerzity se jejich používáním mohou dostat do rozporu s pravidly pro GDPR. 

Napovědí i grafické nesrovnalosti

Pedagogové a pedagožky by si měli podle proděkanky Provozně ekonomické fakulty Mendelovy univerzity v Brně Dity Henek Dlabolové také všímat například zkopírovaných interpunkčních znamének, stylu psaní, formátování. Upozorňuje na nezvyklé zdroje, které studující moc nepoužívají a najednou je v práci mají.

„Divná čísla v textu mohou ukázat, že to původně byly horní indexy odkazující do poznámek pod čarou, které v textu vůbec nejsou,“ popisuje. 

Vyučujícím též doporučuje, aby se podrobně podívali na odkazované dokumenty. Při podrobnějším rozboru je pak možné najít mnohem delší shodnou pasáž, která je třeba jen parafrázovaná. Radí také pomoci si vyhledávačem Google, který pomůže najít i další shody, například při výběru některé netypické věty, kterou třeba student či studentka lépe přepsat neumí. 

Odborníci vyučujícím doporučují také srovnání výčtu vlastních jmen, například technologií, které jsou jazykově nezávislé.

Student jako partner

Hlavní motivací, proč se studenti a studentky některé z forem plagiátorství dopouštějí, je podle Foltýnka i Dlabolové zejména tlak. Potřebují zkrátka projít zkouškou a získat titul. 

Dalším důvodem je příležitost, většina studujících si podle těchto dvou expertů stále myslí, že detekce je nedostatečná. „Říkají si, že to vlastně dělají všichni. Pokud studentovi při zhodnocení rizik odhalení a zisku vyjde, že se mu to vyplatí, tak se podvodného jednání prostě dopustí,“ myslí si Foltýnek.

Nejvíce podle něj ale trápí studující časová tíseň. Tomu se dá předcházet. Svým kolegům a kolegyním doporučuje, aby se na studenty a studentky dívali jako na partnery, umožňovali jim prodlužování termínů, například s bodovou penalizací.

Software ano, ale v kombinaci

Každá univerzita musí tak podle vedoucích workshopu mít komplexnější strategii na odhalování plagiátů – včetně softwaru, jehož schopnosti ale nelze přeceňovat. „Potřebujeme i fundované učitele, kteří jsou schopni plagiátorství odhalit,“ shrnuje Foltýnek, podle něhož je zároveň velice důležitá obecná kultura akademické integrity. 

„Výzkumy ukazují (více například zdezde), že soustředěné úsilí do více oblastí funguje. Některé zahraniční univerzity například zavedly vzdělávání akademického psaní, změny hodnocení studentů, což vedlo i k významnému poklesu plagiátorství,“ uvedl Foltýnek.

Nejednotná praxe také moc nepomáhá

Ohledně postihů podle Dlabolové nakonec rozhoduje rozsah a úmysl. U těch lehčích pochybení je možné vysvětlení, snížení hodnocení, vrácení práce k přepracování. Pokud jde o závažnější chyby, má následovat napomenutí, podmínečné nebo nepodmíněné vyloučení. „To by měla mít každá univerzita jasně stanovené ve směrnicích. Informace mají být dostupné všem, aby studenti věděli, co je případně čeká,“ uvedla na semináři Dlabolová.

Vědomé a nevědomé chyby rozlišovali i jednotliví účastníci a účastnice webináře, kterých bylo při jeho premiéře devětapadesát. Přemýšleli také třeba nad postihy podle toho, zda se jednalo o seminární, nebo závěrečné práce. „V seminární práci budu logicky méně přísný,“ napsal do chatu například Ladislav Baloun z Univerzity Palackého. Debatovalo se i o tom, jak přistupují studující ke konzultacím. Pokud například na konzultace studující nechodil vůbec, navrhovali pedagogové a pedagožky přísnější postup. 

To, že je praxe nejednotná, pak ilustroval Foltýnek absurdním příkladem, kdy komise nechala práci projít, ale zároveň byl jejím výstupem podnět rektorovi k odebrání titulu.