Hlasové technologie z Brna používá i německá policie. Phonexia v mnohém předčí Google i Amazon

Jiří SvobodaJiří Svoboda

michal-hrabi-phonexiaInsider

Foto: Phonexia

Michal Hrabí, CEO Phonexie

0Zobrazit komentáře

Hlasové technologie se pro velkou část populace staly nepostradatelnou součástí každodenního života, ať už kvůli domácím či mobilním hlasovým asistentům, přepisu hlasu na text nebo třeba překládání v reálném čase. Snad každý někdy použil hlasové technologie, které nabízí Google, Amazon nebo Apple. Již málokdo však ví, že v Česku mezitím vznikají produkty, které v hlasu rozpoznají ještě mnohem více a slouží tak i účelům bezpečnostních složek nebo operátorů. Vyrábí je brněnská firma Phonexia a pro CzechCrunch se o ní rozpovídal její CEO Michal Hrabí.

Jako důkaz na svém telefonu ukazuje šéf Phonexie jednoduchou aplikaci. Stačí patnáct vteřin nahrávat něčí hlas a aplikace vyhodnotí, které ze šestadvaceti celebrit je nejvíce podobný. Když předčítám otázky k tomuto rozhovoru, dostávám 11% shodu s Ryanem Goslingem.

„Teď zkuste něco přečíst v angličtině a klidně změňte tón hlasu,“ vyzývá mě Michal. V naději, že pokořím technologii, nasazuji hluboký tón a předčítám kousek anglického textu z materiálu Phonexie. Výsledku se nestačím divit. Tentokrát nedostávám shodu s Ryanem Goslingem ani jinou celebritou, ale aplikace si je místo toho díky první nahrávce na 98 % jistá, že jsem to já. Přesto, že jsem mluvil jiným jazykem, přečetl jsem odlišný text a ještě zcela jiným tónem.

phonexia (1)

Foto: Phonexia

Tým Phonexie

Jde jen o malou ukázku toho, co technologie současnosti dokáže, ale prezentuje to hlavní – hlas je v tomto odvětví alfa a omega a Phonexia se zabývá tím, jak z něj vytěžit naprosté maximum. Michal Hrabí i jeho spolupracovníci často mluví o řečové analytice a hlasové biometrii. V případě, že je klient například zákaznické centrum, dokáže Phonexia z nahrávek odhalit, na co si zákazníci nejčastěji stěžují, nebo na co se nejvíce ptají. „Dokážeme však strojově zpracovat nejen to, co člověk říká, ale v rámci hlasové biometrie umíme říct, kdo to říká. Odhadneme pohlaví a přibližný věk nebo potvrdíme vaši totožnost,“ říká Michal Hrabí.

Phonexia vznikla už v roce 2006 a od té doby se její technologie zásadně proměnila díky strojovému učení a neuronovým sítím. Už ve svých počátcích ale dokázala ještě v roli školního projektu v rámci brněnského VUT vyhrát prestižní cenu NIST, která je jakousi technologickou olympiádou pro univerzitní týmy. Díky ní se povědomí o brněnské technologii rozšířilo v komunitě.

„Začaly přicházet zákazníci,  že chtějí naši technologii koupit, ale v tu dobu vlastně nebylo co kupovat, protože celá Phonexia fungovala pod VUT. Vytvořil se tak univerzitní spin-off,“ říká Hrabí. Od zmíněných technologických gigantů, jako je Google a Amazon, se liší tak mimo jiné cílovou skupinu – nedodává technologie koncovým zákazníkům, ale firmám. V mnohém ale americké giganty předčí i po stránce produktu.

phonexia (3)

Foto: Phonexia

Phonexia má jednu z nejvyspělejších technologií ve svém oboru

Hned první zákazníci, kteří tehdy ještě po univerzitním projektu sáhli, otevřeli Phonexii cestu mimo soukromý sektor, a to přímo do bezpečnostních složek. Podle Hrabího chtěli využít hlasovou biometrii: „Policie nás typicky potřebuje na prověření identity mluvčího za účelem dopadení pachatele. Byla tu například organizovaná skupina podvodníků v bankovnictví, kteří volali do bank a tvářili se jako technicky nezdatní senioři. Získali tak důvěru operátorů a přístup do účtů. Náš systém odhalil, kolik je pachatelů, přestože měnili hlasy.“

Michal Hrabí se proto nebojí ani takových vyjádření, jako že Phonexia patří ve svém oboru ke světové špičce. „Německý Spolkový kriminální úřad dělal evaluace různých řečových technologií a přišel se závěrem, že my jsme ti nejpřesnější. Myslím, že to je příznak, že mezi špičku skutečně patříme,“ pyšní se Hrabí. I proto podobné technologie používá také Armáda ČR či maďarská policie.

Policie díky hlasu usvědčila pachatele

Určitou přesnost vyjádřenou procentem Phonexia neuvádí, jelikož jde o složité technologie a záleží na konkrétním případu. „Můžu ale říct, že na základě naší technologie, kterou má německá policie, už byl člověk usvědčen a šel do vězení. Dokázala totiž říct, jaká je shoda mezi hlasem podezřelého a známým pachatelem,“ prozrazuje Hrabí.

Další případ, kdy může rozpoznávání hlasu přijít vhod je při půjčkách po telefonu. Stačí totiž ukradnout občanku a s trochou štěstí si půjčit peníze na cizí jméno. Pomocí hlasové biometrie ale lze přijít na to, že jde o podvodníka, jestliže ke stejnému poskytovateli už někdy volal a například měnil hlas nebo se představil pod jiným jménem. Veškeré nahrávky jsou navíc zpracovávány v reálném čase, nebo může být posléze dvacet vteřin záznamu zpracováno za vteřinu.

phonexia (2)

Foto: Phonexia

Michal Hrabí s kolegy

V rámci hlasové analýzy Phonexia umí například rozpoznat i jednotlivá slova, která zákazník říká. „Může se to hodit například pojišťovnám nebo bankám, když chtějí vědět, kdy klient zmiňuje určitý produkt, ať už vlastní, nebo konkurenční.“ I takové detaily jsou ostatně věc, která brněnský startup odlišuje od gigantů jako Amazon – ten podle Hrabího „jede mainstream“ a konkrétní názvy produktů jednotlivých firem ho moc nezajímají.

Další výhodou oproti Googlu a Amazonu je, že technologie Phonexie nemusí fungovat na cloudu, ale běží i na lokálním serveru. To může být výhodou pro banky nebo instituce, které sbírají citlivá data o svých klientech a na cloudu tak data vůbec nemají. Mezi další funkce se řadí například identifikace jazyka, pohlaví a odhad věku s přesností přibližně na 7 let.

Díky kombinaci těchto metrik si dokážete vytvořit zajímavou segmentaci zákazníků, kteří vám volají například do zákaznického centra. V případě rozpoznávání pohlaví je míra přesnosti nad 99 % a v současném nastavení už zákazník může přidávat do systému i vlastní jazyky, mimo standardní nabídky, která čítá 63 jazyků.

vit-horky-brand-embassy

Přečtěte si takéVít Horký z Brand Embassy: Kontrakt s telekomunikačním gigantem za více než milion dolarů je jen začátekVít Horký z Brand Embassy: Kontrakt s telekomunikačním gigantem za více než milion dolarů je jen začátek

Užití Phonexie jsou tedy poměrně široké a nebojí se je tak využívat i velcí hráči jako T-Mobile nebo O2. Podle Hrabího chtějí například vědět, co přesně se děje v jejich call centrech, aby mohli optimalizovat své procesy nebo automatizovat odbavení volajících. „Představme si, že v call centru sedí 500 lidí, kteří mohou najednou odbavovat 500 hovorů. Co kdyby jich ale mohli odbavovat 800 najednou?“ Michal Hrabí takovou technologii nazývá voicebot a přirovnává ho již k dnes běžně užívaným chatbotům. V USA a Velké Británii byly první takové technologie nasazeny minulý rok, Phonexia je v současné době začíná dodávat.

„Klíč je v tom, že když volá zákazník s nějakým problémem, tak je část hovoru vždy stejná – jméno, číslo smlouvy a podobně. Až pak má pracovník v call centru prostor pro kreativitu s řešením,“ popisuje Hrabí a dodává, že obdobně by se hovory daly poloautomatizovat například v logistice nebo při telefonických objednávkách zboží.

Software neošálí ani hlas imitátora nebo mumlání

Celý proces analýzy hlasu je ale komplikovanější, než by se na první pohled mohlo zdát. „Na jedné akci jsem pustil nahrávku hlasu známé osobnosti a publikum mělo poznat, o kterou jde. Všichni se celkem jasně shodli, že je to Luděk Sobota, jenže on to nebyl skutečný Luděk Sobota, ale jeho imitátor. Zatímco člověk si byl naprosto jistý, že jde o Luďka Sobotu, systém Phonexie věděl, že se ten hlas podobá skutečnému Luďku Sobotovi jen na 9,03 %,“ usmívá se Hrabí.

michal-hrabi-phonexia

Michal Hrabí, CEO Phonexie

Jak jsou ale vůbec takové výsledky možné? Aktuálně tým Michala Hrabího pracuje s termínem diskriminativní trénovací model. Dříve Phonexia popisovala celou řeč na základě všech jejích parametrů a nyní se míto toho zaměřuje na zvláštnosti, které řečníka odlišují od ostatních – například délka hlasového traktu nebo počty chybějících zubů.

Svou hlasovou identitu člověk navíc neskryje, i když bude mumlat, mluvit zmateně, nebo třeba bude mluvit v opilosti. „Tohle biometrii vůbec nezajímá. V opilosti sice budete mluvit jinak, ale váš hlasový trakt, nadechování, plíce a hlasivky budou vypadat pořád stejně. Váš hlas pak popisujeme na 128 číslech.“

Syntetický hlas bude k nerozeznání od skutečného

Množství informací, které je Phonexia schopná získat z hlasu je natolik velké, že se otevírá otázka i zpětné syntézy hlasu – v podstatě tak hrozí, že na základě dostatečně dlouhé nahrávky bude moci technologie nechat kohokoliv říct cokoliv. „Syntéza v budoucnosti možná a bude tak možné i vytvořit hlas, který bude pro člověka k nerozeznání od skutečného. Ale myslím si, že bude ještě řadu let trvat, než si i technologie řekne, že si není v pravosti hlasu jistá,“ odhaduje Hrabí.

To pochopitelně otevírá velké etické otázky a šéfa Phonexie tak vždy zajímá, na co přesně jeho technologie zákazník používá: „Za mě by bylo určitě neetické takový software volně vypustit do světa, aby ho mohl kdokoliv použít. Ale v momentě, kdy za mnou přijde banka a řekne, že místo fyzického pracovníka v call centru potřebuje příjemný hlas mladé Slovenky, tak není problém.“

Phonexia-office-by-2foto.cz-26

Brněnské kanceláře Phonexie

Z řádků výše je jasné, že Phonexia disponuje velice silnou technologií, která by ale v dnešní době mohla způsobovat i další problémy. Přicházejí i nabídky na zakázky, které podle Hrabího jednoduše firma nevezme, protože si staví svou reputaci na nezávislosti a transparentnosti. Díky tomu však může následně dodávat své technologie policejním sborům, které nechtějí používat ruský nebo americký software. Pro všechny partnery i zákazníky firmy má Phonexia také právně vymahatelný etický kodex.

Zákazníci se navíc množí, a tak Phonexii vzrůstá i obrat. V roce 2014 činil 16 milionů korun, minulý rok 50 milionů a letos míří dokonce na 75 milionů korun. Ve firmě aktuálně pracuje zhruba 50 lidí, kteří se v příštích měsících zaměří například na vylepšování přesnosti u jazyků, které systém dokáže rozpoznat. V budoucnu by chtěla Phonexia rozšířit své pole působnosti a mimo B2B sektoru se věnovat i B2C – na původních technologiích by chtěla prostřednictvím partnera zpracovat i produkt pro koncové zákazníky.