Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
34. Obdobja - 2. del:
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360-361
362-363
364-365
366-367
368-369
370-371
372-373
374-375
376-377
378-379
380-381
382-383
384-385
386-387
388-389
390-391
392-393
394-395
396-397
398-399
400-401
402-403
404-405
406-407
408-409
410-411
412-413
414-415
416-417
418-419
420-421
422-423
424-425
426-427
428-429
430-431
432-433
434-435
436-437
438-439
440-441
442-443
444-445
446-447
448-449
450-451
452-453
454-455
456-457
458-459
460-461
462-463
464-465
466-467
468-469
470-471
472
Simpozij OBDOBJA34 collocations, neodvisno od slovni~nih relacij in razvrstitvijo po vrednosti logDice (Rychly 2008). Kolokatorje izbrane leme primerjamo z mero, ki jo imenujemo CorpDiff in predstavlja razliko med vrednostima v specifi~nem in referen~nem kor- pusu. Pozitivne vrednosti pomenijo kolokacije, specifi~ne za korpus Janes, negativne pa za Kres. Osredoto~imo se na kolokacije z vrednostjo CorpDiff nad 2. Specifi~nost tako definiramo z razliko v pogostosti oz. klju~nosti, in ne kot izklju~ne pojavitve v enemoddvehkorpusov,~esarsejepri interpretaciji treba zavedati. Za primerjavo rabe splo{nega besedi{~a iz korpusov Kres in Janes izlu{~imo frekven~neseznamebesedpoposameznihbesednihvrstah.Izdvajsetnajboljpogostih samostalnikov vsakega korpusa izdelamo skupni seznam prese~nih ob~nih samo- stalnikov, za katere izlu{~imo kolokatorje po pravkar opisani metodi. Za vsako lemo ohranimo do 50 kolokacijskih kandidatov (z najvi{jo CorpDiff vrednostjo) in tako za 15 lem dobimo skupaj 290 kolokacijskih kandidatov. Kljub temu da je ta metoda neodvisna od oblikoskladenjskih oznak, se za analizo te raziskave omejimo na kolo- katorje, ki jim je pri samodejnem ozna~evanju korpusa najpogosteje pripisana besed- na vrsta samostalnik, glagol ali pridevnik. Za kon~no obravnavo tako ohranimo 179 kolokacijskih kandidatov, ki jih prek korpusnih konkordanc podrobneje pregledamo. 5.1 Nerelevantni kandidati Jezik spletnih uporabni{kih vsebin je za avtomatsko ozna~evanje izjemno zahte- ven. V trenutnem stanju orodij je kar 36 odstotkov (65 parov
) izlu{~enih kandidatov nerelevantnih in bi jih bilo z izbolj{anjem orodij mo`no izlo~iti `e v fazi lu{~enja. Ve~kotpolnerelevantnihkandidatovjepovezanihznapa~nolematizacijo.Lahko gre za napake lematizacije kolokatorja (npr. v paru
je lip napa~na lemati- zacija okraj{ave lep pozdrav), napa~na lematizacija osnovne leme (
izhaja iz napa~ne lematizacije glagola delati v frazemu delati se norca), v nekaterih primerihpagrezalematizacijonadolo~nonamestonedolo~neoblikepridevnika(npr.
), kar je razlog za identifikacijo kolokacije kot specifi~ne za korpus Janes, saj je v korpusu Kres lematizirana kot
(razlog je morda tudi v tem, da sta korpusa ozna~ena z razli~nima orodjema). Druga skupina je povezana z izpu{~anjem stre{ic v jeziku spletnih uporabni{kih vsebin. Npr. kolokacijski par
je prav zaradi izpusta stre{ic napa~no razumljenkotspecifi~enzauporabni{kevsebine,~epravjekolokacija~ezdanpogosta tudi v referen~nem korpusu. Z rediakritizacijo bi bilo mogo~e tovrstne napake lu{~e- nja odpraviti. Pogoste napake predstavljajo kolokacije, izlu{~ene iz besedil posameznega upo- rabnika (oz. domene). Npr. stavek Pediater je odvetnik otroka je v korpusu Janes prisoten kar 300-krat, vendar vedno v istem forumu na koncu sporo~il istega uporab- 3 - Nastavitve: okno 3, min. frekvenca 10 za kolokator in 5 za kolokacijski niz; za samo analizo smo se osre doto~ili le na kolokacije s frekvenco nad 1 na milijon. Kot listo praznih besed smo dodali znake za emotikone, za potrebe zastavljene raziskave pa tudi izvzeli predloge. 604