Izhodišča stilometričnih analiz

Uvod

Različni kvantitativni pristopi so bili v jezikoslovne in literarnovedne raziskave vpeljani že pred razvojem digitalne humanistike, in čeprav so v »preddigitalnem« obdobju zavzemali le majhen delež znotraj humanistike, so že začrtali temeljno smer, v kateri so se razvijali tudi znotraj digitalne humanistike. Količina računalniško podprtih metodologij v humanistiki je začela naraščati v šestdesetih letih,[1] skoraj eksponentno pa od devetdesetih let 20. stoletja dalje (Hockey 2004a), k čemur so pripomogli zlasti ogromna rast zmogljivosti računalnikov, razvijanje programske opreme ter vedno večja dostopnost računalniško berljivih besedil (Holmes 1998: 111−112; Jannidis in Lauer 2014: 30−31; Craig in Greatley-Hirsch 2017: 3).

Že pred digitalno humanistiko se je razvijala tudi stilometrija, statistična ali kvantitativna analiza stila, ki na različnih jezikovnih ravninah raziskuje podobnosti in razlike med besedili. Običajno izhaja iz analize enostavnih jezikovnih značilnosti, ki jih lahko v besedilnem dokumentu določamo avtomatsko, kot so relativna frekventnost (najpogostejših) besed, raba in razporeditev ločil ali povprečna dolžina povedi ali besed (Eder idr. 2017: 1−2). Še vedno močno prevladuje analiza na ravni leksike, razvija pa se tudi področje skladenjskih in pomenskih stilometričnih analiz.

Ko govorimo o stilometriji v digitalni humanistiki, govorimo o računalniško podprti stilometriji, ki se uvršča med analize besedil na način t. i. oddaljenega branja (Moretti 2000)[2] ali makroanalize (Jockers 2013). V velikih (večjih) zbirkah besedil poskuša najti razmerja in vzorce podobnosti in razlik, ki so »očesu človeškega bralca« skriti (Eder idr. 2016: 108). Oddaljeni pristop torej omogoča oz. celo zahteva vključitev večje količine besedil, kar pomeni, da lahko v raziskavo poleg kanonizirane literature vključimo še množico potencialno »nezanimivih« besedil (Jockers 2013: 8), na pomen katerih v raziskovanju literature so opozorile zlasti polisitemska teorija (prim. Moretti 2000: 57), naratologija in sodobnejše prevodoslovne teorije.

Zgodovina stilometrije in slovenske raziskave

Za enega prvih ali prvega, ki je uporabil izraz stilometrija in pravilno napovedal njen nadaljnji razvoj še pred računalniško podprto stilometrijo, velja poljski filozof Wincenty Lutosławski, ki je leta 1897 z računskimi metodami določal kronologijo Platonovih spisov (Binongo 2003), prve (za)misli o povezavi med kvantitativno določljivimi lastnostmi besedila, konkretno dolžino besed, in določanjem avtorstva pa so se pojavile že vsaj leta 1851 v Angliji. Augustus de Morgan, profesor matematike na londonski univerzi, je predlagal, da bi preštevali dolžino besed v Pavlovih pismih, saj je po občutku prepoznaval razlike v dolžini besed med posameznimi pismi. De Morganovo zamisel je v začetku osemdesetih let 19. stoletja preverjal Thomas C. Mendenhall in leta 1887 objavil prvo raziskavo o najpogostejši dolžini besed v pismih raznih avtorjev, leta 1901 pa rezultate raziskave, v kateri je primerjal najpogostejše dolžine besed pri več avtorjih in ugotovil, da se med njimi ujemata le najpogostejša dolžina besed pri Shakespearju in Marlowu.

Pot računalniški stilometriji so odprle raziskave v začetku šestdesetih let 20. stoletja. Alvar Ellegård, švedski jezikoslovec in profesor angleščine na univerzi v Göteborgu, je s pomočjo računalnika s statističnimi pristopi ugotavljal avtorstvo t. i. Juniusovih pisem (Letters of Junius) iz druge polovice 18. stoletja. V istem času kot Ellegård, a neodvisno od njega, sta ameriška statista Frederick Mosteller in David L. Wallace s pomočjo računalnika na podlagi najpogostejši nepolnopomenskih besed določala avtorstvo Federalističnih spisov. Preboj v aplikaciji statističnih metod na literarna besedila pomeni delo Johna Burrowsa iz druge polovice osemdesetih let 20. stoletja, Computational into Criticism (1987). Burrows je pokazal na vlogo relativne pogostnosti najpogostejših nepolnopomenskih[3] besed v literarnem stilu in potrdil stilometrijo kot preverjeno metodo za ugotavljanje avtorstva (Holmes in Kardos 2003; Hockey 2004b: 106−107). Z vedno novimi raziskavami in novimi orodij se je stilometrija uveljavila kot upoštevanja vreden metodološki pristop, ki še ni izčrpal vseh možnosti, in − kot je razvidno iz stilometrične bibliografije (Schöch idr. 2017),[4] − do danes postala praktično nepregledno področje znotraj literarnih raziskav.

Aplikativnost stilometrije sega tudi v filozofijo, zgodovino in korpusno jezikoslovje, pogosto se uporablja v forenziki, natančneje v forenzičnem jezikoslovju (ugotavljanje plagiatorstva, določanje avtorjev anonimnih grozilnih pisem, napovedi terorizma),[5] v zadnjem času pa njen pomen narašča zlasti na področju analize javnega mnenja, trženja in kadrovanja (Eder idr. 2016: 107; Evert idr. 2017: ii4; Zwitter Vitez in Pollak 2019: 168). Uporaba stilometričnih metod v širšem družbenem diskurzu za slovenski jezik je značilna zlasti za raziskave, ki skušajo z obsežnejšim referenčnim korpusom določiti avtorja besedila in profil anonimnega avtorja (prim. Zwitter Vitez 2011), konkretne raziskave ugotavljanja avtorstva pa so najpogosteje usmerjene na področje kaznivih dejanj (prim. Zwiter Vitez 2014) in ugotavljanje plagiatorstva.

Sporadične analize slovenske literature s stilometričnimi računalniškimi metodami raziskujejo pomenljive podobnosti in razlike med besedili enega, dveh ali več avtorjev.[6] Avtorjem raziskav je uspelo z različnimi pristopi pokazati na določeno razmerje med kvantitativno merljivimi značilnostmi besedila in avtorstvom del, in sicer na podlagi dolžine besed in povedi pri Antonu Podbevšku in Jožetu Cvelbarju (Dović 2002), pogostnosti n-terčkov pri Cirilu Kosmaču in Ivanu Cankarju (Jakopin 2003), skupin najpogostejših 50 nepolnopomenskih besed pri vprašanju avtorstva Janeza Mencingerja (Limbek 2008) ali po pogostnosti posameznih ločil za prepoznavanje avtorstva del šestih avtorjev iz druge polovice 19. in začetka 20. stoletja, Frana Levstika, Josipa Jurčiča, Ivana Tavčarja, Janka Kersnika, Ivana Cankarja in Prežihovega Voranca (Panker 2012). S stilometričnim računalniškim orodjem Stylo je bila prepoznana heterogenost opusa sodobne dramatičarke Simone Semenič ter podprta in objektivizirana klasična literarna analiza (Zajc 2019).

Stil in stilometrija

Stilometrija je del jezikovne stilistike, interdisciplinarne vede, ki se primarno uvršča v jezikoslovje in hkrati predstavlja vezni člen med jezikoslovjem in literarnimi vedami. Stilistika ali analiza stila se je kot samostojna disciplina v poznem 18. stoletju razločila od antične retorike (Horstmann 2018: § 5), ki je stile prepoznavala s primerjanjem nasprotij:[7] arhaični proti modernemu in visoki proti nizkemu stilu (Craig in Greatley-Hirsch 2017: 6). Stil lahko pojmujemo kot amorfno, vseobsegajočo entiteto, ki jo lahko raziskujemo le z izbranega vidika (Tuldava 2005: 369) in je ne moremo nikoli zajeti v celoti (Smolej 2011: 423), ali kot verjetnostni koncept, po katerem je osnovna komponenta oblikovanja stila zavedna ali nezavedna izbira (Tuldava 2005: 369). V formalistični stilistiki je stil interpretiran kot odklon od t. i. normalnega stila, strukturalistična analiza stila pa raziskuje vzorce ali pravilnost, ugotavlja izpolnitev stilistične norme ter ustreznost stilističnega ujemanja in opozicij (Horstmann 2018: § 7). Literarni stil torej lahko opazujemo kot prepleteno mrežo različnih dejavnikov. Vsakokratna analiza stila zajame določene segmente in razkrije različne avtorske, žanrske, kronološke ipd. stile, toda obenem ugotavlja le nekaj specifičnega in ne celote stila literarnega besedila. Zato so izsledki analiz stila relativni glede na preučevane komponente stila (Craig in Greatley-Hirsch 2017: 21, 24).

Stilometrija je še najtesneje povezana s formalističnimi[8] in strukturalističnimi analizami stila (Horstmann 2018: § 7). Osredotoča se na nezavedno komponento (avtorjevega) stila in ga preučuje s kvantificiranjem jezikovnih podatkov (Craig in Greatley-Hirsch 2017: 21), z merjenjem in preštevanjem različnih jezikovnih lastnosti določa »karakteristike« avtorja, njegov »stilistični prstni odtis« (Holmes in Kardos 2003: 5; Craig in Greatley-Hirsch 2017: 21). Vendar metafora iz forenzike ne ponazarja le zanesljivosti rezultatov, ampak tudi omejitve metode: prstni odtis z visoko stopnjo zanesljivosti res identificira posameznika, ne posreduje pa podatkov o njegovi osebnosti ali predispozicijah. Stilometrija je torej besedilno imanentni pristop, ki zunajjezikovnega in zunajliterarnega konteksta sam po sebi ne more upoštevati (Horstmann 2018: § 14), zato relativne frekvence nepolnopomenskih besed ne moremo enačiti s stilom besedila (Allison idr. 2013: 1), lahko pa iz nje izluščimo enega od vidikov literarnega stila in izsledke povežemo z drugimi pristopi.

Čeprav je Holmes (1998: 115−116) v obdobju skokovitega razvoja računalništva prepričljivo napovedoval, da so statisti vedno bliže »svetemu gralu« stilometrije, popolnoma avtomatskemu identifikatorju avtorja, žanra ali obdobja, in da bodo računalniki »prevzeli nalogo«, da določijo značilnosti, na podlagi katerih lahko najjasneje določimo avtorja besedila, raziskovalci danes še vedno ugotavljajo, da gral stilometrične zanesljivosti ostaja »onkraj naših zmožnosti« (Eder 2013: 169) in da je določanje značilnosti, ki naj jih računalniški program analizira in v njih odkriva vzorce, še vedno v domeni raziskovalca (Eder in Byszuk 2019). Izhodišče vsake kvantitativne analize je raziskava, s katero opredelimo raziskovalno vprašanje in kriterije izbora besedil, ki jih bomo analizirali v iskanju odgovorov (Dović 2002: 248). Upoštevati moramo, da je stilometrija primerjalna metoda, rezultat primerjave med besedili pa je relativen glede izbor besedil, vključenih v raziskavo. Omejitve stilometrije je torej mogoče preseči s komplementarnostjo med »digitalnim«, tj. kvantifikacijo in iskanjem vzorcev, ter »humanističnim«, tj. zasnovo raziskave in interpretacijo rezultatov na podlagi že znanih konceptov. Novo vedenje lahko nastane le na stiku med obema pristopoma, v zanki, v kateri znani koncepti informirajo meritve in nadaljnje meritve omogočijo nove koncepte (Allison idr. 2013: 28).

Rezultati kvantitativnih analiz niso dokončne ugotovitve ali dejstva, ampak stopnje na lestvici verjetnosti (Craig in Greatley-Hirsch 2017: 3). Če kvantitativni in kvalitativni rezultati sovpadejo, je rezultat veliko verjetneje pravilen, sicer moramo o vsebinskih izhodiščih obeh metod premisliti na novo (Tuldava 2005: 370).

Paket Stylo

Na obsežnem področju raziskav (literarnega) stila ne moremo prezreti, da je vsako preučevanje jezikovnega ali literarnega stila zastavljeno interdisciplinarno. Pri računalniško podprti stilometriji je interdisciplinarnost še izrazitejša, saj sega iz humanistike in družboslovja v naravoslovne in tehnične znanosti, zlasti računalništvo, matematiko in statistiko (Eder idr. 2016: 107). Pri večini stilometričnih raziskav lahko iz raziskovalnih ciljev razberemo, s katerega področja izhaja raziskovalec: medtem ko so pri raziskovalcih, ki raziskujejo na področju literarnih ved, v ospredju literarna dela in je stilometrija metodološko orodje, s katerim je hipoteza, ki jo je postavilo že »klasično« literarnovedno raziskovanje, ovržena ali potrjena, je pri računalničarjih v ospredju razvijanje najustreznejše metode, literarni teksti pa so le gradivo za preverjanje metod.

Za premostitev razkola med obema disciplinama so bila v sodelovanju računalniških strokovnjakov in raziskovalcev v humanistiki razvita računalniška orodja, za uporabo dostopna raziskovalcem v humanistiki (Eder idr. 2017: 1−2). Eno od teh orodij je paket Stylo[9] (Eder idr. 2016), ki ga razvija skupina raziskovalcev s področja jezikoslovja, literarnih ved in računalništva z več raziskovalnih ustanov na Poljskem in v Belgiji, Computational Stylistics Group. Skupina ima sedež na Inštitutu za Poljski jezik pri Poljski akademiji znanosti v Krakovu na Poljskem.

Paket Stylo predstavlja razširitev osnovnega programa v programskem okolju za napredne statistične analize zbirk besedil R (prim. R Core Team 2019), ki deluje v različnih operacijskih sistemih, ima širok spekter uporabnikov in se sproti nadgrajuje (Gregorič in Mole 2016). V paketu Stylo za R so implementirane poglavitne metode, ki so trenutno najbolj v rabi pri stilometričnih analizah literature (Eder idr. 2016). Stilometrične analize s paketom Stylo temeljijo na pogostnosti nepolnopomenskih ali funkcijskih besed,[10] katerih zanesljivost za prepoznavanje stila se je od Burrowsovih raziskav dalje potrjevala vedno znova (prim. Jockers 2013: 64; Eder idr. 2017: 9). Ker so nepolnopomenske besede obenem tudi najpogostejše pojavnice v korpusu, s paketom Stylo merimo uporabo najpogostejših leksemov.

Za t. i. laičnega uporabnika je najbolj priporočljiva in praktična uporaba grafičnih uporabniških vmesnikov (GUI), prek katerih je mogoče poljubno spreminjati osnovne nastavitve. V stilometričnih analizah slovenske pripovedne literature smo večinoma upoštevali osnovne nastavitve:[11] analiza razvrščanja podatkov v skupine po podobnosti in različnosti (t. i. cluster analiza) na podlagi relativne pogostnosti 100 najpogostejših besed celotnega korpusa, z neupoštevanjem velike/male začetnice; statistična metoda za merjenje razdalje delta,[12] ki jo je v stilometrijo uvedel John Burrows (2001), njena ustreznost pa je bila preverjena tudi za druge jezike, ne le za angleščino, ter za različne zvrsti in obdobja (Evert idr. 2017: ii5); izris rezultatov v dendrogramu (drevesnem izrisu), format besedil v korpusu je golo besedilo.[13] Vmesnik Input and Language omogoča nastavitev jezika besedil za 11 jezikov,[14] za druge, tudi za slovenščino, je na voljo opcija Other.

Paket Stylo omogoča tudi vizualizacijo v odprtokodni programski opremi za analizo omrežij Gephi (Bastian idr. 2009). Povezava med obema programskima opremama je tako rekoč avtomatska, saj se pri analizi v paketu Stylo generira Excelova datoteka, ki jo je mogoče uvoziti v Gephi.

Priprava elektronskih besedil za stilometrične analize

Računalniško podprta stilometrija se je uveljavila z raziskavami literature v angleškem jeziku, ki je po razpoložljivosti elektronskih besedil in orodij za procesiranje naravnih jezikov tudi najbolj razvit jezik, z vidika kvantitativnih analiz je njena prednost še, da praktično ne pozna slovnične pregibnosti. Ko orodja za stilometrično analizo apliciramo na jezike z visoko pregibnostjo in s tem z velikim številom možnih oblik, kar lahko pomeni razpršenost podatkov, postane aktualno vprašanje lematizacije. Izračun pogostnosti besed je namreč pri velikem številu besednih oblik lahko zavajajoč, saj se vsaka (različna) oblika samostalniške besede, pridevniške besede, glagola ipd. šteje kot posamezna beseda.[15] Tudi s tega vidika se zdi potencialna ustreznost paketa Stylo za analize slovenskih literarnih besedil toliko večja, saj je bil zasnovan in preverjan tudi na korpusu besedil v poljščini, ki je tako kot slovenščina jezik z visoko stopnjo pregibnosti. Vendar kljub sorodnosti med poljščino in slovenščino ugotovitve, da je lematizacija besed za poljska besedila za relevantnejše rezultate nujna (Eder idr. 2017: 9), ne moremo neposredno aplicirati na slovensko gradivo.

Ker so besedila, ki so bila gradivo naše raziskave o izhodiščih slovenske pripovedne proze, nastala v širšem časovnem razponu in torej v različnih stopnjah razvoja ter tudi različnih varietetah slovenskega jezika, je bila ustrezna obdelava besedil v elektronskem korpusu še poseben izziv. Ustrezna priprava korpusa ne bi bila mogoča brez aplikacije jezikovnotehnoloških orodij, razvitih posebej za starejši slovenski jezik, oz. brez sodelovanja s strokovnjakom s tega področja.[16]

Besedila v korpusu PriLit, iz katerega smo glede na zasnovo in cilje posamezne raziskave izbrali relevantna besedila za stilometrične analize, so bila med drugim pisno posodobljena in lematizirana. Po izvedenem posodabljanju in lematizaciji besedil smo imeli na voljo tri različno procesirane skupine besedil:

  1. Le tokenizirana, ne pa tudi lematizirana in posodobljena besedila, ki so le poenoteno zapisana v gajici.
  2. Poenoteno posodobljena in nelematizirana besedila. Poenoten posodobljeni zapis zagotavlja, da so na primer zapisi polglasnika z e ob zlogotvornem r, npr. vrt namesto vert, zvedene na isto pojavnico.
  3. Posodobljena in lematizirana besedila.

Na primeru besedil iz korpusa, na katerih smo s stilometrično analizo preverjali razmerje med slogom Janeza Ciglerja in Christopha Schmida ter njune avtorske signale, smo primerjali tudi sezname 100 najpogostejših besed v navedenih treh skupinah besedil. Primerjava seznamov 100 najpogostejših besed po posameznih skupinah, ki jih generira paket Stylo, je pokazala največja odstopanja v skupini posodobljenih in nelematiziranih besedil. Ugotovili smo, da na ta odstopanja vpliva lematizacija glagola biti. Tako je na seznamu 100 najpogostejših pojavnic pri besedilih, ki so tokenizirana in niso ne posodobljena ne lematizirana (prim. seznam), in besedilih, ki so tokenizirana in le pisno posodobljena (prim. seznam), na prvem mestu beseda je (tretja oseba glagola biti), medtem ko je v skupini besedil, ki so tudi lematizirana (prim. seznam) na vrhu seznama nedoločniška oblika biti; med prvimi 100 najpogostejšimi pojavnicami prvih dveh, nelematiziranih skupin besedil je biti na 94. oz. 96. mestu, na seznamu pa so še druge oblike glagola biti, in sicer (od najpogostejše do najredkejše) sedanjiške oblike: so, si, sem, sta, ste, nato pretekli deležnik na -l (po pogostnosti si sledijo bil, bila, bilo, bili) in prihodnjik (relativno najpogostejša pojavnica je spet oblika za 3. osebo ednine bo, med pojavnicami sta še bom in boš). Pri tem iz seznamov ni mogoče razbrati, kdaj je glagol biti polnopomenski, kdaj nepolnopomenski, v vlogi vezi, in kdaj rabljen kot pomožni glagol za tvorbo preteklika, predpreteklika ali prihodnjika, sklepamo pa lahko, da se v vlogi polnopomenskega glagola pojavlja najredkeje. Navedene oblike glagola biti skupno predstavljajo 12 odstotkov najpogostejših 100 pojavnic, pri čemer so oblike glagola biti v največ primerih nepolnopomenske in tudi zato pomembne za stilometrično analizo.

Sklepamo torej, da najbolj relevantne rezultate dobimo z analizo posodobljenih nelematiziranih besedil (prim. še Žejn 2020a). Iz seznama najpogostejših 100 besed lahko ugotovimo, da so posodobljene skoraj vse besede v seznamu, kar omogoča primerljivost med besedili iz različnih obdobij in narečnih uvrstitev v razvoju slovenskega jezika. Za ponazoritev navajamo prvih 20 najpogostejših besed v celotnem korpusu za posodobljena (nelematizirana) besedila: je, in, v, da, se, na, so, ta, te, od, to, iz, pa, bi, tako, za, on, ti, ne, s.

Rezultati stilometrične analize – zlasti v zvezi z avtorskim signalom prevodov Martina Cochemskega (prim. stilometrično analizo pripovedne proze od sredine 17. do sredine 19. stoletja) − kažejo, da smo se z ustrezno posodobitvijo besedil uspešno izognili vplivu narečnih varietet in vplivu rokopisnega medija glede na tiskano knjigo na rezultate. Vendar pa teh ugotovitev, skupaj z ugotovitvami o relevantnosti posodobljenih nelematiziranih besedil za stilometrično analizo starejših besedil, ne moremo posplošiti kot veljavnih kriterijev za kvantitativne raziskave slovenske literature, ampak je treba ustrezne parametre premisliti in določiti vedno znova v skladu z naravo besedil ter izhodišči in cilji vsakokratne raziskave.

Aplikacija paketa Stylo v raziskavi izhodišč slovenske pripovedne proze

Bistveni in neobhodni del v predpripravi za stilometrične analize je bila obravnava besedil, vključenih v korpus PriLit, z vidika njihove vloge v sistemu slovenske pripovedne proze in z vidika razmerij med Schmidovo prevedeno in Ciglerjevo izvirno pripovedno prozo začetka 19. stoletja ter zgodovinskoslogovne uvrstitve njune literarture. Posebej smo tekstnokritično analizirali tudi spremembe v besedilu Sreče v nesreči skozi različne izdaje od izvirne leta 1836 do leta 1991. Na te raziskave smo se opirali tudi pri interpretaciji rezultatov stilometrične analize.

V raziskavi izhodišč slovenske pripovedne proze smo na podlagi rezultatov klasične literarnovedne raziskave z orodjem za stilometrične analize Stylo na skupini pisno posodobljenih, a ne lematiziranih besedil določali t. i. avtorski signal s primerjavo med besedili Christopha Schmida in Janeza Ciglerja. Preverjali smo ugotovitve o stilnem, ne le vsebinskem vplivu Schmida na Ciglerja. Analiza je pokazala prepoznaven in zaokrožen stil besedil Janeza Ciglerja in relativno najmočnejšo povezanost s Schmidovimi deli, potrdila napačno pripisana avtorstva Christopha Schmida ter nepričakovano odprla vprašanje avtorstva enega od Ciglerjevih del. Druga stilometrična analiza pa se je osredotočila na vprašanje stilnih obdobij v daljšem časovnem obdobju razvoja slovenske pripovedne literature od srede 17. do srede 19. stoletja in znotraj obdobij prepoznave žanrskega signala. Preverjali smo tudi uporabnost in veljavnost orodja Stylo za starejša slovenska pripovedna besedila, ki so med drugim posredovana v različnih medijih in zaznamovana z različnimi jezikovnimi varietetami. S stilometrično analizo verzij Sreče v nesreči (od 1836 do 1991) smo preverjali in potrdili ugotovitve o spremembah besedila v različnih izdajah, ki smo jih prepoznavali na podlago kolacije in recenzije verzij.

1

Za pionirja digitalne humanistike velja Roberto Busa, ki je konec petdesetih let v sodelovanju z IBM-om začel projekt Index Thomisticus, lematiziran konkordančni seznam vseh del Tomaža Akvinskega, ki je bil knjižno objavljen leta 1974. Kot opozarja Hladnik (2012), je skoraj sočasno slavist Peter Scherber objavil konkordančni Slovar Prešernovega pesniškega jezika, kar štejemo za začetek digitalne humanistike v slovenski humanistiki.

2

Za vprašanje Morettijevega teoretskega koncepta oddaljenega branja gl. Virk 2007: 188 in Žejn 2020b oz. tam navedeno literaturo; za pregled kritik oz. »kritiko kritik« gl. Habjan 2011a: 35−40 in Habjan 2011b: 121−128.

3

Burrows se je v raziskavah sprva osredotočal na stalne vzorce pojavljanja polnopomenskih besed, ki so bile prepoznane kot nosilke ideje (na primer eleganten, nesmisel). Šele kasneje je pozornost usmeril na zaimke in člene ter ugotavljal, da njihova raba v različnih romanih in celo govoru likov variira (Craig in Greatley-Hirsch 2017: 13).

4

Upoštevati moramo, da bibliografski seznam vsebuje po večini le prispevke v angleščini, nemščini, francoščini in španščini, ne pa tudi številnih raziskav v drugih jezikih.

5

Za aplikacije stilometrije v jezikoslovni forenziki v slovenščini prim. še diplomske naloge na to temo, ki so nastale na Fakulteti za varnostne vede.

6

Pregled je omejen na področje stilometrije in ne navaja na splošno digitalnohumanističnih raziskav na gradivu slovenskega jezika. Za slednje gl. Hladnik 2012.

7

Podoben princip je prepoznaven pri analizah modernistične pripovedne literature, ki so zasnovane na opoziciji med konvencionalnimi, tradicionalnimi, realističnimi ter na drugi strani modernističnimi pripovednimi tehnikami ali pripovednimi postopki.

8

Prim. izraz kvantitativni formalizem v Stanfordskem literarnem laboratoriju (Allison idr. 2011).

9

Orodje je bilo v raziskavah slovenske literature prvič uporabljeno za prikaz stilne heterogenosti v osrednjem opusu avtorice Simone Semenič (prim. Zajc 2019).

10

Stilometrične analize se lahko opirajo tudi na rabo in razporeditev ločil ali povprečno dolžino povedi ali besed (Eder idr. 2017: 1−2). Oboje je bilo v sporadičnih raziskavah aplicirano tudi na gradivo slovenske literature (prim. Dović 2002; Panker 2012).

11

Za pregled preostalih funkcij paketa Stylo prim. https://computationalstylistics.github.io/stylo_nutshell/#disclaimer.

12

Burrows je delto razvil za merjenje razdalje med posameznim besedilom in referenčnim korpusom, vseeno so jo raziskovalci kasneje uporabljali zlasti za merjenje razdalje med posameznimi besedili (Evert idr. 2017: ii6).

13

Možnosti sta še .xml in .html.

14

Trenutno so na voljo izbire angleščina, latinščina, poljščina, madžarščina, francoščina, italijanščina, španščina, nizozemščina, nemščina in kitajščina/japonščina/korejščina.

15

Ta učinek je manj opazen pri upoštevanju manjšega števila najpogostejših besed, na primer od 100 do 500 najpogostejših, saj v tem primeru prevladujejo nepregibne slovnične vrste, kot so vezniki in predlogi (Eder idr. 2017: 9).

16

Dr. Tomaž Erjavec, Odsek za tehnologije znanja Institut "Jožef Stefan" in Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI, je tudi soavtor korpusa PriLit.