Analysis of presidential speeches

Saturday December 27th, 2014Saturday August 12th, 2017Jiří Materna

Český rozhlas včera na svém webu zveřejnil přepisy vánočních a novoročních projevů všech československých a českých prezidentů od roku 1934 do současnosti. Bezesporu se jedná o velmi zajímavá data, která si zaslouží analýzu. První vlaštovkou byl Michal Dvořák, který si všiml, že náš současný prezident ve svém projevu lehce nadužívá první osobu singuláru, což demonstroval jednoduchou statistikou. Frekvenční analýza, kterou použil, je jistě mocný nástroj, ale nedokáže odhalit složitější zákonitosti. Proto jsem se nad korpusem projevů rozhodl provést Latentní Sémantickou Analýzu.

Nejprve jsem dal dohromady všechny texty jednotlivých prezidentů, ty rozdělil na slova a zlemmatizoval je pomocí nástroje MorphoDiTa. Tím vzniklo 11 dokumentů, každý reprezentující texty jednoho prezidenta. Zájemci si je můžou stáhnout zde. Na každý dokument jsem dále aplikovat frekvenční normalizaci TF-IDF a výsledek transformoval do dvoudimenzionálního prostoru pomocí latentní sémantické analýzy (LSA).

Výsledek je znázorněn na následujícím obrázku.

Je těžké smysluplně interpretovat jednotlivé osy grafu, můžeme se však dívat na vzdálenosti prezidentů ve vzniklém sémantickém prostoru. Z grafu je vidět, že algoritmus bezpečně oddělil demokratické prezidenty od nedemokratických, kteří vytvořili shluk v pravé horní části grafu. Mezi demokratickými prezidenty stojí trochu stranou T. G. Masaryk. To může být dáno tím, že byl u něho k dispozici pouze jeden velmi krátký projev z roku 1934 a data jsou tak ovlivněna šumem. Velmi zajímavé je postavení M. Zemana a E. Háchy, kteří spolu tvoří samostatný shluk. Stojíme tedy před otázkou, co mají tito dva prezidenti společného. Na LSA je pěkné to, že dokáže zachytit i vztahy, které v textech vůbec nejsou explicitně zmíněné, a dává tak prostor pro zamyšlení. Co je tedy spojuje?

9 komentářů k “Analysis of presidential speeches”

Petr Jirásek
Sunday December 28th, 2014 at 02:22 AM

Zajimavy clanek.

Mohl bych se prosim zeptat, proc jste pouzil zrovna nastroj MorphoDiTa? Jaka byla vase motivace oproti pouziti kuprikladu majky. Rozhoduju se zrovna, co pouzit pro jeden nekomrecni projekt a tak proto se ptam.

A druhy dotaz, tu LSA jste provadel asi prostrednictvim nejakeho LSA balicku? Odhaduju podle stylu grafu, vypada typicky Rkovsky:o)

Diky
Reply
Jiří MaternaPost author
Sunday December 28th, 2014 at 11:55 AM

Podle experimentů, které jsme prováděli společně s ÚFAL MFF UK a NLP FI MU dosahuje Morphodita o trochu lepších výsledků než Majka (resp. Desamb, Majka je pouze morfologický analyzátor, který neprovádí disambiguaci). Měřeno to však bylo na uživatelských dotazech fulltextového vyhledávání Seznam.cz, takže na běžných textech jako jsou prezidentské projevy to nutně platit nemusí. Hlavním důvodem použití Morphodity bylo to, že Majku znám dobře a chtěl jsem si tak vyzkoušet práci s Morphoditou:)

Pro výpočet LSA jsem použil knihovnu Gensim (https://radimrehurek.com/gensim/). Graf byl potom vygenerován v nástroji Veusz.
Reply
- Petr Jirásek
  Sunday December 28th, 2014 at 12:44 PM
  
  Diky za odpoved:)
  Reply
Petr Šimeček
Monday December 29th, 2014 at 07:55 PM

Moc hezké. Nedaly by se zakreslit do grafu zvlášť i jednotlivé projevy? Tak by se dalo ukázat, nakolik je skutečně spojuje osoba prezidenta a kolik tvoří náhoda a šum (a do jaké míry je tedy Masaryk stranou).
Reply
- Jiří MaternaPost author
  Wednesday December 31st, 2014 at 11:01 AM
  
  To jsem zkoušel. Nedá se říci, že by vznikly shluky odpovídající jednotlivým prezidentům. Je to opravdu zatížené šumem, zvlášť u hodně krátkých projevů. I tak ale vzniknou dva bezpečně oddělené mraky demokratických a nedemokratických projevů.
  Reply
  - Petr Šimeček
    Wednesday December 31st, 2014 at 06:45 PM
    
    Díky za odpověď. Tipnul bych si, že rozdíl mezi "mraky" bude v komunistických buzzwords (proletariát, dělnická třída, pracující inteligence, ...), která nekomunističtí prezidenti neměli důvod používat.
    Reply
    - Jiří MaternaPost author
      Wednesday December 31st, 2014 at 07:14 PM
      
      Přesně tak, slovník komunistických prezidentů je úplně jiný. Proto jsou od nekomunistických tak krásně oddělení.
      Reply
voho
Wednesday August 12th, 2015 at 02:04 AM

Tohle je hrozne zajimave tema. Obecne politika. Treba by se dala nejaka neuronovka natrenovat pro psani projevu nejakeho poslance nebo by mohla pomoci pri rozhodovani koho volit (ne podle strany, ale treba podle projevu :).
Reply
Vladimir Janis
Sunday January 28th, 2018 at 07:53 PM

Pred casom som robil nieco podobne, ale ovela jednoduchsie, zistoval som priemernu dlzku vety. Aj tam je vidiet, ze vseobecny trend pouzivania stale kratsich viet sa prejavuje aj u prezidentov (Havel bol vynimkou). Plus jeden vedlajsi produkt "vyskumu" - pocty viet som zistoval pomocou poctu bodiek, vykricnikov a otaznikov (ano, ano, veci ako 15. zjazd KSC som odfiltroval). Ukazalo sa, ze s prichodom Gottwalda otazniky zmizli.
Reply

Machine Learning Guru

Analysis of presidential speeches

9 komentářů k “Analysis of presidential speeches”

Leave a Reply Cancel reply