Mezi jedno z nejlepších světových pracovišť, které se zabývá počítačovým zpracováním jazyka, patří Ústav formální a aplikované lingvistiky MFF UK. Studoval tam a dnes tam přednáší Jiří Hana, spoluzakladatel firmy Geneea. Ta zpřístupňuje technologie na zpracování jazyka firmám, které pracují s velkými objemy textů nebo nahrávek, třeba médiím, kde pomáhá novinářům s nudnými nebo rutinními úkoly.
Geneea loni oslavila deset let své existence. Čím se firma dnes zabývá?
Už od svých studií na Matfyzu jsem se věnoval počítačovému zpracování jazyka. Frustroval mě kontrast v možnostech, které se ve výzkumu otevíraly pro češtinu, a tím, co se využívalo v praxi. To nás přivedlo k nápadu založit Geneeu. Naším cílem bylo zpřístupnit technologie na zpracování jazyka běžným uživatelům, firmám působícím v jakémkoliv odvětví. Tehdy jsme byli jeden z prvních startupů, které se tomu v České republice věnovaly. Dnes se ale specializujeme především na oblast hromadných sdělovacích prostředků. Novinářům se snažíme usnadňovat práci. Jsme s nimi při každém kroku. Když bude například novinář psát článek o udílení Nobelových cen, pomocí naší technologie mu pomůžeme s rešerší vlastního archivu redakce. Obsah pak sumarizujeme do bodů, připravíme infoboxy nebo časové osy. Můžeme do toho zakomponovat i další zdroje, pokud o to bude mít redakce zájem.
Dnes ale nepracujete jenom s češtinou.
Zákazníky máme nejen v České republice, ale i v Irsku, Lucembursku, Německu nebo v USA. Pracujeme i pro vícejazyčné redakce. Analyzovat umíme nejen psaný text v jakémkoliv jazyce, ale i video a audioobsah. K hotovému článku dokážeme rychle dohledat relevantní fotografie jak z interních, tak externích fotobank. Naše technologie pomáhá i s metadaty, což je nutná výbava článků, kterou se ale novináři velmi neradi zabývají, protože je to časově náročná a nudná část práce. Doporučíme související články, klíčová slova nebo různé kategorizace, novinář si z nich pak jen vybere.
Věnujeme se také analytice, aby šéfredaktoři přesně věděli, o jakých tématech, místech nebo oborech a jak často publikují, nebo jaký typ článků se v jakou denní dobu nejvíc čte. Spolupracovali jsme například s francouzským veřejnoprávním rozhlasem Radio France. Jako médium veřejné služby se ze zákona musí věnovat rovnoměrně všem regionům země. Šéfredaktor si těžko bude dělat čárky za každé město, které se ve vysílání zmíní. Naše technologie to ale umí. Šéfredaktor pak dostane veškerá možná potřebná data, interaktivní mapy a grafy, na základě kterých může činit rozhodnutí.
Pro Transparency International jsme dělali analýzy postů na sociálních sítích. V době voleb jsme se zaměřili na to, co o sobě jednotlivé strany psaly. Pomáhali jsme také s analýzou toho, jak se píše o válce na Ukrajině v ruských a západních médiích.
Spolupracujete i s českými veřejnoprávními médii?
Pro Českou tiskovou kancelář náš systém od roku 2020 automaticky píše zprávy o výsledcích voleb. Jakmile začnou chodit data z Českého statistického úřadu, začneme je zpracovávat, doplníme je o známá, dříve publikovaná fakta a během několika sekund předáme hotové zprávy novinářům. Ti je občas slohově vylepší, ale obsahově i gramaticky musí být bez chyby. Novináři se pak díky ušetřenému času můžou rovnou zaměřit na analytické články nebo na rozhovory s kandidáty.
Jak Geneea funguje technicky?
Na zpracování článků, podcastů nebo vysílání používáme oblast informatiky, které se říká počítačové zpracování přirozeného jazyka (natural language processing). Používáme mix technologií od strojového učení (machine learning), přes neuronové sítě až po velké jazykové modely (large language models). V současné době analyzujeme okolo jednoho milionu článků za den, což je v průměru 12 článků za sekundu. Velká část naší práce spočívá i v tom, zvládnout větší nápor požadavků a přesto zajistit, aby novinář dostával naše návrhy během několika vteřin, a ne minut.
Jak vaši práci změnil nástup velkých jazykových modelů?
Je to obrovský pokrok. Využíváme je k tomu, abychom naše nástroje dostali na ještě vyšší úroveň. Aby velké jazykové modely dávaly rychlé a kvalitní výsledky, musíte vědět, jak s nimi pracovat. Jen pak je to možné využívat pro solidní novinářskou práci. Jak jsem říkal, my jsme schopní analyzovat milion článků za den, to by běžný velký jazykový model dělal věčnost a stálo by to spoustu peněz. My ale máme potřebnou expertízu a jsme schopni našim zákazníkům pomoct najít nejefektivnější řešení.
Geneea má velmi blízké vztahy s Matfyzem, že?
Firmu vlastníme se spolužákem z Matfyzu Petrem Hamerníkem a asi třetina týmu jsou matfyzáci. Samozřejmě tu máme absolventy i jiných technik a také lidi s humanitním zaměřením, ale napojení na MFF UK je opravdu úzké. Jsme partnery Ústavu formální a aplikované lingvistiky MFF UK, zastupujeme je při prodeji nástrojů pro zpracování češtiny a dalších jazyků, které vyvinuli. Sám také stále na MFF UK přednáším a vedu pár diplomových prací. Baví mě to a studentům můžu ukázat, jaké problémy se řeší v praxi, tím trochu vystoupí z toho ryze akademického prostředí.
Média jsou důležitou součástí zdravých demokracií. Domníváte se, že novináře a novinářky nové technologie dokážou časem úplně nahradit?
Oproti jiným technologickým firmám se snažíme být opravdu blízko našim zákazníkům – médiím a porozumět jejich práci a problémům. Proto se také účastníme světových mediálních konferencí. Na nich se často řeší to, jak mladá generace konzumuje zprávy o světě. Není to úplně tak, že by se o zpravodajství vůbec nezajímala, konzumuje ho už ale jiným způsobem a média s tím zápasí. Jak se bude vyvíjet svět žurnalistiky, vám nepovím, ale můžu vám říct, o co se snažíme my. Naší misí není novináře nahradit, ale pomoci jim v tom, být důvěryhodným zdrojem informací a analýz a sejmout z nich nudnou rutinní práci, která je od důležité a pro nás pro všechny potřebné činnosti odvádí. Novinařina má obří smysl a my uděláme všechno pro to, abychom kvalitní žurnalistiku pomohli udržet.
RNDr. Jiří Hana, Ph. D. |
Absolvent Matematicko--fyzikální fakulty UK. Doktorskému studiu se věnoval na Ohio State University v USA. Zabývá se počítačovým zpracováním přirozeného jazyka. V roce 2014 spoluzaložil v Praze startup Geneea, na jehož vedení se dosud podílí. Vedle toho vede na MFF UK kurzy o jazykových technologiích a obecné lingvistice. |