Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
34. Obdobja - 1. del:
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360-361
362-363
364-365
366-367
368-369
370-371
372-373
374-375
376-377
378-379
380-381
382-383
384-385
386-387
388-389
390-391
392-393
394-395
396-397
398-399
400-401
402-403
404-405
406-407
408-409
410-411
412-413
414-415
416-417
418-419
420-421
422-423
424-425
426-427
428-429
430-431
432
Simpozij OBDOBJA34 skega sporo~ila. Ti podatki ka`ejo, da je zgrajeni korpus zelo heterogen tako glede na avtorstvo kot tudi glede na dol`ino in koli~ino prispevanih besedil. 3.2 Oblikoskladenjska analiza Poleg tega, da je podkorpus tvitov najobse`nej{i po {tevilu vsebovanih pojavnic (61 mio.) in {tevilu stavkov (7,3 mio.), vsebuje tudi dale~ najve~ razli~nih besednih oblik (2,7 mio.) in lem (2 mio.) ter prakti~no celoten nabor oblikoskladenjskih oznak, ki jih vsebuje korpus Janes (99 %). ^eprav bi lahko k vi{jemu {tevilu lem in oznak delnoprispevaletudinapakeavtomatskegaozna~evanja,lahkozgotovostjotrdimo,da podkorpustvitovvsebujenajbogatej{einnajboljraznolikobesedi{~evkorpusuJanes. Glede na obseg podkorpusov forumskih sporo~il in blogov, ki zna{a okoli tri ~etrtine (oz. dve tretjini) podkorpusa tvitov, je namre~ {tevilo besednih oblik pribli`no zadvetretjini(oz.tri ~etrtine) ni`je v podkorpusu forumov (oz. blogov), medtem ko je razli~nih lem v forumih in blogih v primerjavi s tviti le {e za slabo ~etrtino (oz. petino). Najmanj stavkov ({estkrat manj kot pri tvitih) vsebuje podkorpus komen- tarjev, ki v primerjavi z drugimi vsebuje tudi najmanj{i nabor besednih oblik in lem – prvih je ve~ kot petkrat, drugih pa kar desetkrat manj kot v korpusu tvitov. V primerjavi z uravnote`enim korpusom Kres vsebuje korpus Janes ve~ kot sedemkrat ve~ medmetov in 1,5-krat ve~ okraj{av. Po drugi strani pa je v korpusu Janes {tevilo {tevnikov prakti~no razpolovljeno in se v njem pojavlja za slabo tretjino manj pridevnikov. Analiza klju~nih oblikoskladenjskih oznak v korpusu Janes glede na korpus Kres poka`e, da je za komunikacijo na dru`benih omre`jih zna~ilna raba glavnih in pomo`nih glagolov prve in druge osebe v sedanjiku, osebni, svojilni, kazalni in nedolo~ni zaimki v prvi osebi ednine ter samostalniki oz lastna imena mo{kega spola v ednini, kar daje prvi vpogled v vsebino in na~in izra`anja v uporab- ni{kih vsebinah (sporo~anje osebnih mnenj, ob~utij, dejavnosti). 3.3 Leksikalna analiza Pojave na leksikalni ravni smo analizirali s pomo~jo seznamov klju~nih besednih oblik glede na korpus Kres, ki smo jih za celoten korpus in vse podkorpuse izra~unali s pomo~jo logaritma verjetnosti. Z vsakega seznama smo jih analizirali prvih sto, - leksikalne prvine pa razvrstili v eno od devetih kategorij: nevtralno besedi{~e (am pak), pogovorni/nare~ni/slengovski izrazi (fajn), govorne prvine (pa~), novomedijsko besedi{~e (#junaki), kraj{anje (lp), emotikoni (:d), tematsko obarvano besedi{~e (volitve), nestandardni zapis {umnikov (vec), nestandardno pisanje skupaj/narazen (nevem). Mednajboljklju~nimistobesednimioblikamizacelotnikorpusJanesjenenevtral- nega besedi{~a 60 %. Najve~ med njimi je pogovornih, nare~nih in slengovskih izrazov (23 %), govornih prvin (13 %) in besedi{~a, zna~ilnega za dru`bene medije (10 %). V podkorpusu tvitov je nenevtralnega besedi{~a kar 81 %. V forumskih sporo~ilih ga je slaba polovica (46 %), komentarji na novice ga vsebujejo tretjino (33 %), najmanj, dobro ~etrtino, pa ga najdemo v blogih (29 %), kar je glede na zna~ilnosti analiziranih besedilnih zvrsti tudi v skladu s pri~akovanji. 221