Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
Obdobja 41_za listanje:
Print
Print Page
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360
Simpozij OBDOBJA 41 pri tem pomagamo s fotograifranjem in pretvorbo besedila na sliki v digitalni zapis.5 Odvisno od čitljivosti rokopisa na sliki pri tem sicer pogosto prihaja do napak, vendar je za tistega, ki tipka, popravljanje že digitalno napisanega besedila pogosto manj obremenjujoče od pretipkavanja v celoti, poleg tega pa je lahko tako bolj pozoren na to, da digitalni zapis ustreza originalu. Na roko napisanih besedil je v KOST-u razmeroma malo – v času pisanja tega prispevka 13 %. Njihovo vključevanje v korpus pa je neizbežno, saj je vsaj pri tistih besedilih, ki so bila na roko napisana v izpitnih pogojih, bistveno večji nadzor nad zunanjimi okoliščinami tvorjenja. Najzahtevnejši in hkrati najpomembnejši del priprave KOST-a je označevanje jezikovnih napak, ki poteka ročno in v skladu z vnaprej določeno klasiifkacijo napak. V tem prispevku puščamo ob strani razmislek o kategorijah napak, omenimo le, da so razvrščene v 23 kategorij. Vsaki napačni obliki v besedilu pripišemo oznako napake in zraven navedemo popravljeno obliko. Napako je torej treba najprej prepoznati, jo klasiifcirati in popraviti. Zato želimo, da je vsako besedilo dostopno v dveh oblikah: izvirni in popravljeni. 4 Dosedanja gradnja korpusa Šolar Zgodovina gradnje korpusa Šolar, ki vsebuje pisna besedila slovenskih osnovno- šolcev in dijakov, priča o večplastnosti težav, s katerimi se srečajo izdelovalci tovrstnih korpusov. Pri korpusu Šolar se zbiranje besedil niti ni izkazalo za preveč problematično, saj so bili učitelji in učiteljice pripravljeni pomagati, še več, pri izdelavi prve različice, ki je vsebovala skoraj milijon besed, nam je zaradi časovnih in ifnančnih omejitev uspelo v korpus vključiti samo 2703 od 8594 zbranih besedil (Rozman idr. 2012). Odločitev je bila tudi metodološka, saj smo večjo pozornost posvečali uravnoteženosti korpusa, tako na ravni regijske zastopanosti kot zastopanosti različnih predmetov in nivojev izobraževanja. Zlasti regijsko zastopanost smo pri izdelavi druge različice (Kosem idr. 2019), ki vsebuje 1,63 milijona besed, še izboljšali.6 Za razliko od korpusa KOST je bila velika večina besedil za korpus Šolar napisanih na roko, kar je pomenilo veliko količino pretipkavanja. Pri tem je pomembno, da je pri korpusu Šolar pretipkavanje vključevalo tudi beleženje učiteljskih jezikovnih popravkov in njihovo kategorizacijo, kar je postopek upočasnjevalo in je zahtevalo tudi dodatno usposabljanje kadra. Precejšnjo oviro, ki se je pojavila pri prvem zbiranju, je predstavljalo dejstvo, da so učitelji pošiljali kopije besedil, kakovost kopij pa je bila odvisna od kakovosti uporabljenega kopirnega stroja. Poleg tega so bile kopije črno-bele in nemalokrat ni bilo jasno, kdaj je nekaj popravil učitelj in kdaj že učenec sam (Arhar Holdt idr. 2017: 98). Ta težava je bila odpravljena pri postopku zbiranja besedil za drugo različico korpusa, saj smo prešli na metodo skeniranja besedil in pošiljanje (barvnih) PDF datotek. Medtem ko nam za razliko od korpusa KOST ni bilo treba jezikovno popravljati besedil, saj smo zgolj beležili učiteljske popravke, pa se je za zahtevno izkazalo 5 To omogoča Googlova funkcija Google Lens, prim. https://lens.google/. 6 Spletna stran projekta Šolar 2.0: https://solar.trojina.si/. 26