Računalniško podprta stilometrija se je uveljavila z raziskavami literature v angleškem jeziku, ki je po razpoložljivosti elektronskih besedil in orodij za procesiranje naravnih jezikov tudi najbolj razvit jezik, z vidika kvantitativnih analiz je njena prednost še, da praktično ne pozna slovnične pregibnosti. Ko orodja za stilometrično analizo apliciramo na jezike z visoko pregibnostjo in s tem z velikim številom možnih oblik, kar lahko pomeni razpršenost podatkov, postane aktualno vprašanje lematizacije. Izračun pogostnosti besed je namreč pri velikem številu besednih oblik lahko zavajajoč, saj se vsaka (različna) oblika samostalniške besede, pridevniške besede, glagola ipd. šteje kot posamezna beseda.[15] Tudi s tega vidika se zdi potencialna ustreznost paketa Stylo za analize slovenskih literarnih besedil toliko večja, saj je bil zasnovan in preverjan tudi na korpusu besedil v poljščini, ki je tako kot slovenščina jezik z visoko stopnjo pregibnosti. Vendar kljub sorodnosti med poljščino in slovenščino ugotovitve, da je lematizacija besed za poljska besedila za relevantnejše rezultate nujna (Eder idr. 2017: 9), ne moremo neposredno aplicirati na slovensko gradivo.
Ker so besedila, ki so bila gradivo naše raziskave o izhodiščih slovenske pripovedne proze, nastala v širšem časovnem razponu in torej v različnih stopnjah razvoja ter tudi različnih varietetah slovenskega jezika, je bila ustrezna obdelava besedil v elektronskem korpusu še poseben izziv. Ustrezna priprava korpusa ne bi bila mogoča brez aplikacije jezikovnotehnoloških orodij, razvitih posebej za starejši slovenski jezik, oz. brez sodelovanja s strokovnjakom s tega področja.[16]
Besedila v korpusu PriLit, iz katerega smo glede na zasnovo in cilje posamezne raziskave izbrali relevantna besedila za stilometrične analize, so bila med drugim pisno posodobljena in lematizirana. Po izvedenem posodabljanju in lematizaciji besedil smo imeli na voljo tri različno procesirane skupine besedil:
- Le tokenizirana, ne pa tudi lematizirana in posodobljena besedila, ki so le poenoteno zapisana v gajici.
- Poenoteno posodobljena in nelematizirana besedila. Poenoten posodobljeni zapis zagotavlja, da so na primer zapisi polglasnika z e ob zlogotvornem r, npr. vrt namesto vert, zvedene na isto pojavnico.
- Posodobljena in lematizirana besedila.
Na primeru besedil iz korpusa, na katerih smo s stilometrično analizo preverjali razmerje med slogom Janeza Ciglerja in Christopha Schmida ter njune avtorske signale, smo primerjali tudi sezname 100 najpogostejših besed v navedenih treh skupinah besedil. Primerjava seznamov 100 najpogostejših besed po posameznih skupinah, ki jih generira paket Stylo, je pokazala največja odstopanja v skupini posodobljenih in nelematiziranih besedil. Ugotovili smo, da na ta odstopanja vpliva lematizacija glagola biti. Tako je na seznamu 100 najpogostejših pojavnic pri besedilih, ki so tokenizirana in niso ne posodobljena ne lematizirana (prim. seznam), in besedilih, ki so tokenizirana in le pisno posodobljena (prim. seznam), na prvem mestu beseda je (tretja oseba glagola biti), medtem ko je v skupini besedil, ki so tudi lematizirana (prim. seznam) na vrhu seznama nedoločniška oblika biti; med prvimi 100 najpogostejšimi pojavnicami prvih dveh, nelematiziranih skupin besedil je biti na 94. oz. 96. mestu, na seznamu pa so še druge oblike glagola biti, in sicer (od najpogostejše do najredkejše) sedanjiške oblike: so, si, sem, sta, ste, nato pretekli deležnik na -l (po pogostnosti si sledijo bil, bila, bilo, bili) in prihodnjik (relativno najpogostejša pojavnica je spet oblika za 3. osebo ednine bo, med pojavnicami sta še bom in boš). Pri tem iz seznamov ni mogoče razbrati, kdaj je glagol biti polnopomenski, kdaj nepolnopomenski, v vlogi vezi, in kdaj rabljen kot pomožni glagol za tvorbo preteklika, predpreteklika ali prihodnjika, sklepamo pa lahko, da se v vlogi polnopomenskega glagola pojavlja najredkeje. Navedene oblike glagola biti skupno predstavljajo 12 odstotkov najpogostejših 100 pojavnic, pri čemer so oblike glagola biti v največ primerih nepolnopomenske in tudi zato pomembne za stilometrično analizo.
Sklepamo torej, da najbolj relevantne rezultate dobimo z analizo posodobljenih nelematiziranih besedil (prim. še Žejn 2020a). Iz seznama najpogostejših 100 besed lahko ugotovimo, da so posodobljene skoraj vse besede v seznamu, kar omogoča primerljivost med besedili iz različnih obdobij in narečnih uvrstitev v razvoju slovenskega jezika. Za ponazoritev navajamo prvih 20 najpogostejših besed v celotnem korpusu za posodobljena (nelematizirana) besedila: je, in, v, da, se, na, so, ta, te, od, to, iz, pa, bi, tako, za, on, ti, ne, s.
Rezultati stilometrične analize – zlasti v zvezi z avtorskim signalom prevodov Martina Cochemskega (prim. stilometrično analizo pripovedne proze od sredine 17. do sredine 19. stoletja) − kažejo, da smo se z ustrezno posodobitvijo besedil uspešno izognili vplivu narečnih varietet in vplivu rokopisnega medija glede na tiskano knjigo na rezultate. Vendar pa teh ugotovitev, skupaj z ugotovitvami o relevantnosti posodobljenih nelematiziranih besedil za stilometrično analizo starejših besedil, ne moremo posplošiti kot veljavnih kriterijev za kvantitativne raziskave slovenske literature, ampak je treba ustrezne parametre premisliti in določiti vedno znova v skladu z naravo besedil ter izhodišči in cilji vsakokratne raziskave.