Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
32. Obdobja:
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360-361
362-363
364-365
366-367
368-369
370-371
372-373
374-375
376-377
378-379
380-381
382-383
384-385
386-387
388-389
390-391
392-393
394-395
396-397
398-399
400-401
402-403
404-405
406-407
408-409
410-411
412-413
414-415
416-417
418-419
420-421
422-423
424-425
426-427
428-429
430-431
432-433
434-435
436-437
438-439
440-441
442-443
444-445
446-447
448-449
450-451
452-453
454-455
456-457
458-459
460-461
462-463
464-465
466-467
468-469
470-471
472-473
474-475
476-477
478-479
480-481
482-483
484-485
486-487
488-489
490-491
492-493
494-495
496-497
498-499
500-501
502-503
504-505
506-507
508-509
510-511
512-513
514-515
Simpozij OBDOBJA32 zacije, ki jo je vstopni sistem pred tem pre-Za ponazoritev procesa pridobivanja in poznal kot relevantno za uporabnika.analize korpusnih podatkov vzemimo katego- Zapridobiteviz~rpneganaboraproblema-riji C1a3a (Sklanjanje mo{kih samostalnikov ti~nih primerov znotraj posamezne kategorije,z neobstojnim samoglasnikom: slovenska ki omogo~a, da portal uporabniku v kratkemlastna imena, npr. Klemen – Klemna/Kle- odgovoru vedno ponudi konkreten odgovormena, Sajovic – Sajovica/Sajovca) in C1a3b na konkretno jezikovno vpra{anje, je torej(Sklanjanje mo{kih samostalnikov z neobstoj- nujna temeljita predhodna analiza jezikovnenim samoglasnikom: tuja lastna imena, npr. rabe, s ~imer ozna~ujemo sodobno sloven-Russell – Russella/Russlla, Clinton – Clin- {~ino, kakr{no prikazuje uravnote`en nabortona/Clintna). avtenti~nih besedil v referen~nem besedil- nem korpusu. V nadaljevanju prispevka takoZa pridobitev seznama vseh lastnih imen, podrobneje predstavljamo lu{~enje, analizo,ki bi lahko bila relevantna za omenjeni za- uvoz in prikazovanje korpusnih podatkov nadregi, opis iskanih korpusnih pojavnic razde- omenjenem spletnem portalu ter vlogo, ki jolimo na tri dele – osnovo, variabilni del in 5 v tem procesu igrata njegovi osrednji podat-obrazilo – ter jih izlu{~imo iz korpusa za kovni zbirki: korpus Gigafida v obsegu mili-nadaljnjo obdelavo. Na ta na~in lahko pri- jarde besed3 in leksikon besednih oblikmerjamovariantne oblike, vklju~no s podatki Sloleks.4 o variabilnosti pri posamezni obliki v obliko- slovni paradigmi. Najbolj zanimive za na{ 2 Strojno lu{~enje korpusnih podatkovnamen so tiste kombinacije, ki imajo distri- V prvi fazi lu{~enja korpusnih podatkovbucijo variabilnega dela najbolj razpr{eno po iz korpusa Gigafida smo podrobneje oprede-obeh mo`nostih. lili oblikoslovne, skladenjske oziroma drugeV drugi fazi tako dobljeni spisek razde- lastnosti posamezne jezikovne zadrege in pri-limo na lo~ene podsezname, ki predstavljajo pravili ustrezna navodila za strojno lu{~enjevsak svojo kombinacijo (izpu{~enega ali in `eleni izpis podatkov. Razli~ni tipi jezi-obdr`anega) samoglasnika in enega ali dveh kovnih zadreg so glede na zahtevnost, obsegsoglasnikov (npr. -en/-n-, -ek/-k-, -ic/-c-, in pri~akovano stopnjo korpusnega {uma za--ell/-ll-), ter podatke o frekvenci vseh obrazil htevali razli~no zasnovana navodila, pri vsehdolo~ene osnove in posameznega variabil- pa smo sku{ali v ~im ve~ji meri upo{tevatinega dela zdru`imo. ^e spisek vseh pojavnic dve poglavitni na~eli: navodila za lu{~enje naj bodo pripravljena brez vnaprej{njegas statisti~nimi podatki iz korpusa razpore- sklepanja o dejanski jezikovni rabi (tudi ~e todimopoizra~unu,kiprotivrhupotiskaoblike pomeni ve~jo koli~ino korpusnega {uma) terz najbolj razpr{eno distribucijo in najve~ po- naj se, ~e je le mogo~e, opirajo zgolj na alfa-javitvami,6 dobimo za podseznam -en/-n- numeri~no obliko pojavnic, ne pa na njihovenaslednji spisek (najvi{je vrednosti si sledijo strojno pripisane metapodatke o oblikoskla-po vrsticah od zgoraj navzdol, navajamo denjskih oznakah ali lemi. prvih petnajst): 3 http://www.gigafida.net; ve~ v Logar Berginc idr. 2012. 4 http://www.slovenscina.eu/sloleks; ve~ v Arhar 2009; Krek, Erjavec 2009. 5 V danem primeru je osnova opredeljena kot niz ~rk z veliko za~etnico (npr. Klem-), variabilni del kot katerikoli enojni ali podvojeni soglasnik, pred katerim lahko stoji poljuben samoglasnik (npr. -en- ali -n-), in obrazilo kot dokon~en nabor kon~nic v paradigmi imen, ki se sklanjajo po prvi mo{ki sklanjatvi (npr. -a, -u, -om/-em). 6 Pri statisti~ni obdelavi podatkov, ki je namenjena zgolj razvr{~anju, ne pa tudi selekciji podatkov, smo glede na naravo jezikovne zadrege poleg frekvence posameznih variant in njihovih medsebojnih razmerij upo{tevali tudi dol`ino korena, frekvenco strojno pripisanih ali ugibanih lem, frekvence oblik s speci- fi~nimi obrazili ipd. 102