Časopis Naše řeč
en cz

Kniha tabulek a frekvenčních seznamů z korpusové fonologie a morfologie

Josef Štěpán

[Posudky a zprávy]

(pdf)

Book of tables and frequency lists on corpus phonology and morphology

Review of Tomáš Bartoň - Václav Cvrček - František Čermák - Tomáš Jelínek - Vladimír Petkevič: Statistiky češtiny. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu, 2009. 214 s.

Tomáš Bartoň – Václav Cvrček – František Čermák – Tomáš Jelínek – Vladimír Petkevič: Statistiky češtiny. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu, 2009. 214 s.

 

Je dobře, že v české jazykovědné bohemistice po období, v němž převažovala teoretická lingvistika, přichází nyní doba, kdy se začíná rozvíjet empirický výzkum, který se opírá o objektivní data a snaží se vyvarovat subjektivnosti. Jednou větví tohoto výzkumu je tzv. korpusová lingvistika. Jde o lingvistiku, která v zásadě vychází z jazykového materiálu a jež se u nás pěstovala i dříve, tehdy však neměla k dispozici tak dokonalou výpočetní techniku jako dnes.

Recenzovaná kniha vyšla během několika málo let už jako další svazek Ústavu Českého národního korpusu (ČNK) v nakladatelství Lidové noviny (o knihách tohoto ústavu viz http://www.korpus.cz/publikace.php), jiné svazky se připravují. Publikace Statistiky češtiny chce být především protiváhou a doplňkem Frekvenčního slovníku češtiny (Čermák et al., 2004); obě knihy mají společné to, že vycházejí z korpusů psané češtiny (u slovníku jde o SYN2000, u recenzované knihy už o vyváženější korpus SYN2005, oba korpusy mají po 100 miliónech slovních tvarů) a že je zpracoval autorský kolektiv členů Ústavu ČNK a Ústavu teoretické a komputační lingvistiky Filozofické fakulty UK v Praze. Zatímco uvedený slovník se zabývá z kvantitativního (statistického) hlediska slovní zásobou, recenzovaná příručka zkoumá z tohoto hlediska především fonologické a morfologické jevy. Zcela stranou vědomě autoři nechávají syntax. Dodejme k tomu, že ta se u nás zkoumá novými metodami v poslední době především na Matematicko-fyzikální fakultě UK pomocí treebanků, z kvantitativní syntaxe je článek J. Štěpána (2008). Autoři opakovaně tvrdí, že jejich korpus SYN2005 je reprezentativní, konstatování o nereprezentativnosti korpusu kolektivu M. Těšitelové (s. 13) je přezíravé; tento korpus založený na 180 vhodně zvolených textech ze tří stylových oblastí byl v době svého vzniku jediným světovým korpusem anotovaným na morfologické i syntakticko-analytické rovině.

Recenzovaná příručka je souborem tabulek a frekvenčních seznamů, a jak autoři sami na s. 13 píší, nejde v ní o interpretaci kvantitativních dat. Podobné soubory tabulek, ale také přehledů a grafů vypracoval průkopnicky už jazykovědně vysoce kvalifikovaný kolektiv vedený M. Těšitelovou. Tyto soubory byly u nás publikovány v osmdesátých letech s překážkami souvisejícími s minulým režimem, a to jen jako interní tisky Ústavu pro jazyk český, proto jsou širší veřejnosti neznámé; je překvapivé, že recenzovaná kniha se o nich nezmiňuje. Jejich úplný seznam (sedm publikací) uvádí naposledy P. Novák (2001, s. 149). Materiál byl sice mnohem méně rozsáhlý než v recenzované knize, jak její autoři rádi uvádějí, ale zapomínají dodat, že tehdejší výpočetní technika nebyla ještě tak vyvinutá jako dnes. Kolektiv M. Těšitelové však už tehdy interpretoval elektronicky vytěžená kvantitativní data jazykového materiálu (Těšitelová et al., 1985) na všech rovinách jazykové stavby a ve všech stylech tak, že jejich kniha může být považována jako výborný materiálový, v osvědčené teorii ukotvený komplement teoreticky zaměřené akademické Mluvnice češtiny (1986, 1986, 1987).

[154]Kniha Statistiky češtiny má šest oddílů. V úvodu (s. 13–21) jsou vedle obecných otázek poznámky o uspořádání knihy a výklady o vztahu jazyka a deskriptivní statistiky, v nichž je náležitě přiznán význam kvantitativní lingvistice. Následuje první oddíl (s. 25–122), který obsahuje tabulky z fonologie, jež uvádějí frekvence jednotlivých hlásek, jejich dvojic a trojic v rámci slovních druhů v korpusu mj. i s ohledem na začátek a konec slova a v rámci lexikonu, průměrnou délku slova atd., a tabulky z grafémiky. Druhý oddíl (s. 123–129) má tabulky z morfematiky, a to přehledy frekvencí kořenů, prefixů a sufixů autosémantických slov; tabulky byly vytvořeny na základě manuální analýzy vzorků nejfrekventovanějších slov. Třetí oddíl (s. 130–206) je věnován flektivní morfologii a všem slovním druhům. Vedle celkových tabulek o slovních druzích jsou v rámci jednotlivých slovních druhů uvedeny seznamy nejfrekventovanějších lemmat a tabulky s číselnými kvantitativními údaji k sémantické morfologii (u substantiv, adjektiv a zájmen rod, číslo a pád, u sloves čas, způsob, osoba a číslo, vid atd.) a k morfologii formální (např. paradigmata u substantiv a sloves aj.). Velmi stručný je čtvrtý oddíl (s. 207–208) o slovnědruhové syntagmatice a pátý (s. 209–212) o stylometrii. Připojena je výběrová bibliografie (s. 213–214). Podrobnější data jsou uložena v elektronické podobě na přiloženém CD-ROM, který je důležitou přílohou knihy, ovšem grafické uspořádání statistických přehledů tam není příliš přehledné. Příručka nabízí díky dnešnímu pokroku ve výpočetní technice obrovské množství statistických dat naší nejširší lingvistické veřejnosti k interpretaci.

Autoři recenzované knihy uvádějí jako smysl své publikace „volit takové výchozí přístupy a pojetí, […] které je co nejkonsenzuálnější a v zásadě pokud možno ateoretické“ (s. 14). Chceme ukázat na dvou konkrétních příkladech, kdy dochází k přenášení pojmu víceslovná jednotka (dříve pojmenování) z frazeologie do gramatiky, že čtenář/uživatel statistické příručky toto jejich východisko těžko může takto vnímat. Statistická data předložená sama o sobě nevedou nutně ke konsensu a při jejich prezentaci se nelze teorie zcela „zbavit“. Při pouhé neinterpretované statistice jazykových jednotek včetně jejich kombinatoriky se může postupovat jak proti tomu, co je v jazykovědě obecně přijímáno, tak i proti intuici.

Za prvé jde o pojem tzv. víceslovné konjunkce (s. 198n.). Autoři navazují na pojetí víceslovných konjunkcí, které nacházíme u F. Čermáka (2008), jenž s ním pracuje už od 70. let minulého století. Ve frekvenčním seznamu uvádějí jevy velmi různorodé, a to vedle podřadicích spojek stejnovětných, jako jsou i když, i kdyby atd., které jsou vždy uvnitř jedné vedlejší věty, také spojky souřadicí a proto, a tak atd., jež spojují dvě hlavní věty a stojí mimo tyto věty, ale zahrnují sem i kombinace souřadicích a podřadicích spojek, např. a protože aj., které plní úplně odlišné funkce v souvětí, a dokonce také kombinace spojek a příslovcí, srov. zrovna když atd. Takovéto pojetí víceslovné konjunkce, které nepřihlíží k syntaktickým funkcím konjunkcí, je v gramatice nadbytečné.

Za druhé se jedná o pojem víceslovné předložky (prepozice), jímž se ve své knize zabývala už pracovnice Ústavu ČNK R. Blatná (Novotná) (2006). Ta odmítla termín „sekundární předložky“ (s. 17) a naši dosud nejlepší knihu o sekundárních (nevlastních) předložkách (Kroupová, 1985) s despektem označila jen jednou větou tak, že „se zabývá předložkami sekundárními, tj. nikoli jen víceslovnými“ (s. 9), třebaže výklad L. Kroupové se věnuje právě především těmto víceslovným předložkám. V recenzované knize se však už pracuje se sekundárními předložkami jako jen jedno[155]slovnými (termín „jednoslovná předložka“ zde ovšem není), protože jsou uvedeny vedle (jednoslovných) předložek primárních a latinských, a to s jejich procentuálním zastoupením v jednotlivých stylech korpusu SYN2005. Následuje frekvenční seznam víceslovných prepozic (s. 194n.). Překvapuje, že mezi sekundární předložky jsou zařazeny výrazy vzhledem, nehledě, které bez primárních předložek k a na neexistují (předložka vzhledem k se ovšem ještě jednou objevuje mezi víceslovnými předložkami).

Shrneme-li obě připomínky, můžeme konstatovat, že v současnosti sice počítače umožňují velmi dobře postup mechanický, tj. evidování všech kombinací bez zřetele ke gramatickým vlastnostem jazykových prostředků, ale ve frazeologii, která především z těchto kombinací vychází, jsou přece jen jiné zákonitosti než v gramatice; v ní je pojem víceslovná jednotka zbytečný.

Závěrem je třeba ocenit to, že psané i mluvené elektronické korpusy vznikly a budou stále vznikat v Ústavu ČNK a že jsou přístupné přes internet odborné i laické veřejnosti jako prostředek (ne cíl) poznávání jazykového systému a jeho fungování. Recenzovaná kniha z kvantitativní (korpusové) lingvistiky je potenciálně dobrým podkladem pro interpretaci češtiny, pro její kvalitativní analýzu. Ukazuje se ovšem, že i při přípravě tabulek a frekvenčních seznamů z korpusové fonologie a morfologie jistá (gramatická) teorie k dispozici být musí. Měla by to však být teorie, která už se osvědčila v jazykovědné, popř. školské praxi.

 

LITERATURA

 

BLATNÁ, R. (2006): Víceslovné předložky v současné češtině. Praha: Nakladatelství Lidové noviny / Ústav Českého národního korpusu.

ČERMÁK, F. (2008): Syntagmatika, kombinace a kumulace konjunkcí. In: F. Štícha – M. Fried (eds.), Gramatika a korpus 2007. Sborník příspěvků ze stejnojmenné konference 25.–27. 9. 2007, Liblice. Praha: Academia, s. 315–323.

ČERMÁK, F., et al. (2004): Frekvenční slovník češtiny. Praha: Nakladatelství Lidové noviny.

KROUPOVÁ, L. (1985): Sekundární předložky v současné spisovné češtině. Linguistica XIII. Praha: Ústav pro jazyk český (interní tisk).

Mluvnice češtiny 1–3. (1986, 1986, 1987). Praha: Academia.

NOVÁK, P. (2001): Jubileum Marie Těšitelové. Slovo a slovesnost, 62, s. 148–150.

ŠTĚPÁN, J. (2008): Vedlejší věty příslovečné časové z hlediska kvantitativního. Naše řeč, 91, s. 235–254.

TĚŠITELOVÁ, M., et al. (1985): Kvantitativní charakteristiky současné češtiny. Praha: Academia.

Zborovská 32, 150 00 Praha 5
stepan.josef@centrum.cz

Naše řeč, ročník 94 (2011), číslo 3, s. 153-155

Předchozí Pavel Kosek, Michal Křístek, Klára Osolsobě, Jarmila Vojtová, Markéta Ziková: První korpusová mluvnice češtiny

Následující Hana Prokšová: Letní škola lingvistiky počtvrté