Korpus SZJ

Korpus Signor

Korpus SIGNOR je uravnoteženi in reprezentativni korpus označenih video posnetkov slovenskega znakovnega jezika (SZJ). S korpusom je mogoč vpogled v dejansko rabo SZJ v vsej slovenski gluhi skupnosti, podatki iz korpusa pa kažejo razširjenost posameznih kretenj in njihovih variacij v posameznih geografskih regijah.

Projekt je financirala Javna agencija za raziskovalno dejavnost RS, šifra projekta J6-4081, trajanje 07.2011-06.2014.

O projektu

V okviru projekta smo zgradili uravnoteženi in reprezentativni korpus slovenskega znakovnega jezika (SZJ). Korpus je v transkribirani obliki dostopen prek spletnega iskalnika, kjer si je posamezne kretnje mogoče ogledati tudi z animiranim agentom. Celotnega korpusa zaradi varstva osebnih podatkov ne moremo javno objaviti, v teku pa je zbiranje dovoljenj snemanih oseb za objavo, kar bo omogočilo tudi pregledovanje posnetih vzorcev.

Gradnja korpusa

Večinoma so snemanja potekala v prostorih lokalnih društev, v nekaj primerih pa sta se snemalki podali tudi k intervjuvancu na dom. Snemanje dijakov Zavoda za gluhe je potekalo v šolskih prostorih, pri čemer je bilo v ta namen pridobljeno dovoljenje ravnateljice ter pisna dovoljenja vseh staršev dijakov. Vsaka snemalna seansa s posameznim informantom je bila sestavljena iz treh delov:

  • spontano kretanje o sebi; spraševalka prosi informanta, da se predstavi, spregovori o sebi, družini in poklicu, o svoji gluhosti, šolanju, itd.,
  • kretanje po video predlogi s splošno vsebino; spraševalka informantu pokaže kratek video, ki ga informant nato povzame ali komentira,
  • kretanje po video predlogi s specializirano vsebino ali prosto kretanje na specializirano temo po izboru informanta.

Trenutno imamo v bazi posnetkov zbrano gradivo 80 informantov, kar predstavlja med 5 in 10 % uporabnikov SZJ in je vsekakor dovolj za reprezentativen vzorec.

Označevanje

Pri zasnovi označevalne sheme smo se opirali na izkušnje nemškega projekta DGS, saj je večino opažanj, ki jih je hamburška skupina zabeležila za nemški znakovni jezik, moč prenesti na analizo slovenskega znakovnega jezika. Za označevanje posnetkov uporabljamo orodje iLex.

Označevalna shema SIGNOR tako zajema naslednje ravni označevanja:

  • Segmentacija oziroma tokenizacija. Tu se tok pripovedi v kretnjah razdeli na posamezne kretnje, ki se v programu iLex zabeležijo kot časovni intervali v določenem posnetku.
  • Pripisovanje pomenskih oznak (glos) oziroma lematizacija. Vsaki kretnji v SZJ je dodeljena edinstvena pomenska oznaka (npr. MAMA1), ki ima točno določeno obliko in ki se navezuje na točno določen pojem.
  • Oblika ust. Pogosto je razumevanje določene kretnje tesno povezano z obliko ust, ki lahko posnema določeno besedo ali njen začetek ali na drug način usmeri sogovornika proti pravemu pomenu.
  • Transkripcija kretnje v zapis HamNoSys. HamNoSys je poseben način zapisovanja kretenj, pri katerem s posebnimi znaki zapišemo obliko, položaj in gibanje rok.
  • Pomen. Vsaka kretnja kot določeni leksem ima enega ali več ustaljenih (slovarskih) pomenov, ki so vnešeni v pomensko bazo.
  • Sestavljeni pomen. Na vseh prejšnjih ravneh se sestavljene kretnje označujejo po posameznih delih. Šele na tej ravni označimo pomen, ki nastane iz kombinacije več kretenj; npr. DELATI1 + ŽENSKA1 = delavka
  • Segmentacija na izjave. Ker kretano besedilo ne vsebuje ločil, je za segmentacijo na posamezne izjave potrebno uporabiti strukturne in vsebinske indikatorje.

Označevanje korpusa še ni zaključeno, predvsem je v teku preverjanje dvoumnih oznak in segmentacija na izjave.

Rezultati

Podatki o pogostosti posameznih kretenj so bili delno vključeni v spletni slovar SZJ, ki se gradi pod okriljem ZDGNS.

Zaključene so prve raziskave leksikalnih značilnosti SZJ; glej objave.

Razvili smo korpusni iskalnik, ki omogoča iskanje po korpusnih oznakah in izpis pogostosti ter sobesedila.

Sodelavci

Univerza v Ljubljani,
Filozofska fakulteta,
Oddelek za prevajalstvo

izr. prof. dr. Špela Vintar, vodja projekta

mag. Boštjan Jerko, raziskovalec

Marjetka Kulovec, raziskovalka

Objave o projektu

Korpus slovenskega znakovnega jezika. Zbornik ISJT2012.

Compiling the Slovene Sign Language Corpus. Proceedings LREC2012.

Korpus in slovnica SZJ. Iz sveta tišine, Letnik XXXII, št. 11 / november 2011

Prvi leksikalni podatki o slovenskem znakovnem jeziku iz korpusa Signor. Zbornik ISJT2014.

Lexical Properties of Slovene Sign Language: A Corpus-Based Study. Sign Language Studies, 15:2, v tisku.