V raziskavi o izhodiščih slovenske pripovedne proze je bil v sodelovanju s strokovnjakom za jezikovne tehnologije dr. Tomažem Erjavcem oblikovan elektronski korpus slovenske pripovedne proze od Adama Skalarja do Janeza Ciglerja PriLit (prim. Žejn in Erjavec 2021), v katerem so besedila več avtorjev iz širšega časovnega obdobja od srede 17. do srede 19. stoletja. Vključen je v Repozitorij Slovenske raziskovalne infrastrukture za jezikovne vire in tehnologije CLARIN.SI, dostopen pa je tudi prek konkordančnika no SketchEngine, ki omogoča korpusne analize.
Pri avtomatskem označevanju korpusa so bila besedila najprej tokenizirana, besede so bile nato pisno posodobljene z orodjem za statistično strojno prevajanje znakov CSTMtiser, potem pa oblikoskladenjsko označene po Universal Dependencies za slovenščino (prim. Dobrovoljc idr. 2017) in lematizirane, oboje z orodjem CLASSLA-StanfordNLP. Zadnji korak je bilo označevanje imenskih entitet z orodjem Janes-NER, s katerim so bila označena zaporedja besed za osebna imena, izlastnoimenske pridevnike, krajevna imena, imena organizacij in druga imena.
V nadaljevanju predstavljamo besedila v korpusu po treh kategorijah: rokopisna besedila, pridige Janeza Svetokriškega, ki so izšle v knjižni izdaji, in druge, sodobnejše knjižne izdaje. Osnovna delitev v predstavitvi temelji na mediju, v katerem so besedila (rokopisna in knjižna), in s tem povezanim načinom priprave besedil za vključitev v elektronski korpus. Izbrane pridige Janeza Svetokriškega so predstavljene v posebnem poglavju, saj predstavljajo nekoliko specifičen vir in gradivno sklenjeno enoto.