Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
32. Obdobja:
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360-361
362-363
364-365
366-367
368-369
370-371
372-373
374-375
376-377
378-379
380-381
382-383
384-385
386-387
388-389
390-391
392-393
394-395
396-397
398-399
400-401
402-403
404-405
406-407
408-409
410-411
412-413
414-415
416-417
418-419
420-421
422-423
424-425
426-427
428-429
430-431
432-433
434-435
436-437
438-439
440-441
442-443
444-445
446-447
448-449
450-451
452-453
454-455
456-457
458-459
460-461
462-463
464-465
466-467
468-469
470-471
472-473
474-475
476-477
478-479
480-481
482-483
484-485
486-487
488-489
490-491
492-493
494-495
496-497
498-499
500-501
502-503
504-505
506-507
508-509
510-511
512-513
514-515
Simpozij OBDOBJA32 (angl. frequency profiling), ki sta jo vpeljalaizstopajo glede na korpus ccKRES): tvit, Rayson in Garside (2000), ter z njo poiskalilink, blog, email, verzija, aplikacija, pro- besedi{~e, ki je najbolj specifi~no posamezne-fil, hashtag, update, account; tvitati, klik- mukorpusu. Najprej smo izdelali frekven~niniti, blokirati, followati, googlati, lajkati, seznam lem za vsakega od obeh korpusov,in{talirati, ~ivkati, resetirati. natopazavsakolemoizra~unalinjenologari-Korpusa se mo~no razlikujeta tudi po rabi temsko verjetnost (angl. log-likelihood, LL).okraj{av, saj so za ccKRES zna~ilne: str., dr., LLupo{tevatakofrekvenci elementa kot tudi{t., g., RS, v tvitih pa izstopajo: rt, lj, lol, mb, velikosti obeh korpusov, ki ju primerjamo;fb, cc, btw, wtf, slo, tv, ng, omg, ftw, ju3, tnx, ve~ji, kot je, bolj je element zna~ilen za enegace, svn, o.o. Da je jezik tvitov res zelo odnjiju. V tabeli 1 prikazujemo prvih 20 lemdruga~en od standardne sloven{~ine, pa ne z najve~jimi vrednostmi LL. nazadnje ka`e tudi dejstvo, da je dele` napak Podrobno smo analizirali prvih 500v tokenizaciji, tegiranju in lematizaciji tvitov uvr{~enih lem na seznamu in ugotovili, da jihob~utnovi{ji, saj jih je med pregledanimi 500 je 66 % zna~ilnej{ih za tvite. V korpusulemami 22 %, v korpusu ccKRES pa samo ccKRESprednja~ijoprvinepisnegastandard-1 %. Najve~ te`av je z lematizacijo pogovorno nega jezika, za katerega so zna~ilni dalj{i,zapisanih besed (npr. jst, js, sm, nism kr, ma{, kompleksnej{i stavki (npr. vezniki ter, kateri,u, tut, men, morm), pri tokenizaciji najve~ vendar, toda, kajti, temve~ in prislovi nato,te`av povzro~ajo emotikoni, ki jih program predvsem, zlasti, namre~, tedaj), pa tudi sa-obravnava kot lo~ene pojavnice, oblikoskla- mostalniki in pridevniki, ki razkrivajo besed-denjsko ozna~evanje pa je problemati~no za novrstno sestavo korpusa ccKRES (npr.dvoumnebesede,kotsopridevnikiinprislovi pravni jezik: ~len, odstavek, postopek, dejav-oz. zaimki in prislovi (npr. obla~no, ta). nost, primer; evropski, dr`aven, strokoven, ja-4 Zaklju~ek ven, slovenski). Za tvite so zna~ilne predvsem prvine go-Vprispevku smo predstavili prvi sloven- vorjenega jezika, kot so {tevilni pogovorniski korpus tvitov in analizirali njegovo bese- prislovi (npr. ful, kul, fajn, super, itak, jasno,di{~e. Socialna omre`japrina{ajovjezikveli- baje, glih, sploh, ziher), medmeti (npr. hehe,ko novosti, ki so zanimive tako jezikoslovno ej, eh, uf, jao, pa~, fak, mah, jes, {it)inpri kot tudi s stali{~a razvoja jezikovnih tehnolo- - gij. Korpus Tweet-sl je namenjen ravno takim vi (pa, ~e, da, ker, ampak). Samostalnike in slo raziskavam in je dostopen tako preko kon- glagole, ki izstopajo v tvitih, bi lahko raz-kordan~nikov kot tudi za prenos. delili na tri skupine: – tematsko obarvani: vikend, petek, kava,Pri analizi korpusa smo se osredoto~ili pivo, vreme, de`, sneg, son~ek, karta, re-predvsemnauporabljenobesedi{~e.Vkorpu- klama; delati, gledati, ~akati, poslu{ati,su slovenskih tvitov izstopa raba medmetov, spati, u~iti, brati, priporo~ati, de`evati,~lenkov, prislovov in okraj{av ter lastnih sne`iti; imen, s ~imer so tviti bolj podobni govorjeni – pogovorni, nare~ni in slengovski: fotka,kot pisni sloven{~ini. Kot je za dru`bena folk, komad, cajt, fora, fuzbal, {iht, `ur,omre`ja zna~ilno, je tudi v analiziranih tvitih bus, faks; rabiti, probati, ratati, pasati,zelopogostauporabaemotikonovin~ustveno {tekati, zrihtati, jebati, hrkati, laufati, fu-zaznamovanega zapisa besed in lo~il, pri ka- terem so iste ~rke oz. lo~ila ve~krat ponov- rati; ljeni. Kljub temu da v korpusu najdemo tudi – `anrskospecifi~ni, med katerimi so {tevil-tvite, ki so napisani v povsem standardni ni v angle{~ini (za {tevilne obstajajo in sesloven{~ini, ve~ina tvitera{ev besede zapisuje uporabljajo tudi slovenske ustreznice,pogovorno, uporablja slengizme in nare~ne vendar angle{ki izrazi po izra~unu LLizraze, precej pa je tudi tujejezi~nih besed, ki 114