Eng
lish
Kontakt
Išči
Meni
Tečaji za odrasle
Izpiti
Knjige
Za otroke
Na tujih univerzah
Seminar SJLK
Simpozij obdobja
Izobraževanja za učitelje
30. Obdobja:
Pojdi na
1
2-3
4-5
6-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
26-27
28-29
30-31
32-33
34-35
36-37
38-39
40-41
42-43
44-45
46-47
48-49
50-51
52-53
54-55
56-57
58-59
60-61
62-63
64-65
66-67
68-69
70-71
72-73
74-75
76-77
78-79
80-81
82-83
84-85
86-87
88-89
90-91
92-93
94-95
96-97
98-99
100-101
102-103
104-105
106-107
108-109
110-111
112-113
114-115
116-117
118-119
120-121
122-123
124-125
126-127
128-129
130-131
132-133
134-135
136-137
138-139
140-141
142-143
144-145
146-147
148-149
150-151
152-153
154-155
156-157
158-159
160-161
162-163
164-165
166-167
168-169
170-171
172-173
174-175
176-177
178-179
180-181
182-183
184-185
186-187
188-189
190-191
192-193
194-195
196-197
198-199
200-201
202-203
204-205
206-207
208-209
210-211
212-213
214-215
216-217
218-219
220-221
222-223
224-225
226-227
228-229
230-231
232-233
234-235
236-237
238-239
240-241
242-243
244-245
246-247
248-249
250-251
252-253
254-255
256-257
258-259
260-261
262-263
264-265
266-267
268-269
270-271
272-273
274-275
276-277
278-279
280-281
282-283
284-285
286-287
288-289
290-291
292-293
294-295
296-297
298-299
300-301
302-303
304-305
306-307
308-309
310-311
312-313
314-315
316-317
318-319
320-321
322-323
324-325
326-327
328-329
330-331
332-333
334-335
336-337
338-339
340-341
342-343
344-345
346-347
348-349
350-351
352-353
354-355
356-357
358-359
360-361
362-363
364-365
366-367
368-369
370-371
372-373
374-375
376-377
378-379
380-381
382-383
384-385
386-387
388-389
390-391
392-393
394-395
396-397
398-399
400-401
402-403
404-405
406-407
408-409
410-411
412-413
414-415
416-417
418-419
420-421
422-423
424-425
426-427
428-429
430-431
432-433
434-435
436-437
438-439
440-441
442-443
444-445
446-447
448-449
450-451
452-453
454-455
456-457
458-459
460-461
462-463
464-465
466-467
468-469
470-471
472-473
474-475
476-477
478-479
480-481
482-483
484-485
486-487
488-489
490-491
492-493
494-495
496-497
498-499
500-501
502-503
504-505
506-507
508-509
510-511
512-513
514-515
516-517
518-519
520-521
522-523
524-525
526-527
528-529
530-531
532-533
534-535
536-537
538-539
540-541
542-543
544-545
546-547
548-549
550-551
552-553
554-555
556-557
558-559
560-561
562-563
564-565
566-567
568-569
570-571
572-573
574-575
576-577
578-579
580-581
582-583
584-585
586-587
588-589
590-591
592-593
594-595
596-597
598-599
600-601
602-603
604-605
606-607
608-609
610-611
612-613
614-615
616-617
618-619
620-621
622-623
624-625
626-627
628-629
630-631
632-633
634-635
636-637
638-639
640-641
642-643
644-645
646-647
648-649
650-651
652-653
654-655
656-657
658-659
660-661
662-663
664-665
666-667
668-669
670-671
672-673
674-675
676-677
678-679
680-681
682-683
684-685
686-687
688-689
690-691
692-693
694-695
696-697
698-699
700-701
702-703
704-705
706-707
708
Simpozij OBDOBJA30 dveh ~rkopisov in danes arhai~nega jezikanatan~nosti, na{ delovni postopek pa se vse (bohori~ica, gajica, posebni znaki, naglasi inbolj izkazuje kot primer dobre prakse in je bil ligature ter slaba prepoznava besed).kottaktudi`epredstavljenvokviruprojektne skupine IMPACT. 3 Delovni postopek izdelave ~istopisov inCilj delovnega postopka je bil izdelati segmentacija strani 5000 strani transkripcij v obliki PAGE XML V prvem koraku priprave korpusa smo(Pletschacher, Antonacopoulos 2010), ki je zbrali skenograme ter vse pretvorili v enotninadgradnja standardnega formata za analizo zapis TIFF, dvostranske skenograme smooblike in besedilnih elementov skenogramov pretvorili v enostranske in poenotili poimeno-ALTO(AnalyzedLayoutandTextObject). vanje datotek. Nato so bili skenogrami shra-Proces priprave zapisov za primarno njenina skupnem repozitoriju projektapodatkovno mno`ico je potekal so~asno na IMPACT, kjer je bila vsakemu pripisana tudidveh ravneh: identifikacijska {tevilka. Naslednji korak jeSprogramomAbbyyFineReaderjebilza bilo segmentiranje strani in izdelava trans-vsak posamezen skenogram (tj. za vsako po- kripcij. samezno stran knjige ali ~asopisa posebej) Na{e prepri~anje, da je za dober OCRnarejen OCR in shranjen kot golo besedilo odlo~ilno poznavanje jezika, v katerem je(format txt) ali v programu Microsoft Word zapisano besedilo, so podprli tudi rezultati in(format doc). Besedilo smo v programu analiza testne serije besedil. Rezultati testneMicrosoft Word ro~no popravili, kolikor je serije, ki smo jo izdelali v NUK, so se izka-bilo to mogo~e. 10 smo pripravili zali za nadpovpre~ne, saj so bili zelo dobri vV programu Aletheia primerjavi z rezultati drugih partnerjev vvsak posamezen PAGE XML posebej, tako projektu. Zato smo se v NUK odlo~ili za raz-da smo ro~no ozna~ili strukture posamezne voj lastnega delovnega postopka, ki se razli-strani, dolo~ili parametre za vse pojavne kuje od sicer{nje prakse partnerjev IMPACT.oblike/elemente na strani, ro~no popravili Ve~ini partnerjev na osnovi vhodnih zapisov,besedilo in dolo~ili vrstni red segmentov. Na ki jih priskrbi Univerza v Salfordu (USAL),Sliki 1 je prikaz strani s kon~ano segmen- izdelajo kon~ne zapise zunanji izvajalci,tacijo na obmo~ja in izdelanim vrstnim re- izvedbeno kakovost pa zagotavljajo partnerjidomobmo~ijnastrani. projekta, zadol`eni za evalvacijo in pregledPostopek dela v programu Aletheia je primarne podatkovne mno`ice. V NUK pazelo zamuden in zahteva veliko mero na- celoten postopek do evalvacije opravimotan~nosti. S programskimi orodji lahko sicer sami, in sicer vzporedno izvajamo izdelavozelo natan~no dolo~imo posamezne strukture vhodnih (OCR) in kon~nih (ro~no pregleda-(obmo~ja) na strani, vendar se obmo~ja med nih) zapisov.8 Pri tem uporabljamo program-seboj ne smejo prekrivati, kar je {e posebej sko opremo OCR (Abbyy FineReader), ki jete`ko pri besedilih, kjer so razmiki med prilagojena slovenskemu jeziku.9 Dosedanjivrsticami izjemno majhni. Za vsako obmo~je rezultatiizpolnjujejozelovisokoravenje treba dolo~iti tip (ali gre za besedilno, 8 Medtem ko poteka opti~na prepoznava besedila z `e uveljavljeno tehnologijo Abbyy FineReader (verzije 7–10), izvajamo popravke istih zapisov v programu Aletheia in tako izdelamo kon~no popravljeno razli~ico zapisa, ki ~im natan~neje ustreza izvirniku. 9 USAL, ki je odgovorna za izdelavo vhodnih zapisov za ostale partnerje, ima programsko opremo OCR, prilagojeno za prepoznavanje nem{kega, francoskega in angle{kega, ne pa slovenskega jezika. Zato je smiselno, da NUK sam izdela svoje vhodne zapise, saj so tako `e v izhodi{~u bolj natan~ni. 10 Program Aletheia je grafi~ni urejevalnik segmentacije strani in korekcije transkripcij, ki je bil razvit v okviru projekta IMPACT. 124