Mikä ihmeen korpusannotointi?: Taustatietoa suomenruotsalaisen viittomakielen annotoinnin tueksi
Huhtinen, Hannaliisa (2020)
Huhtinen, Hannaliisa
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2020112724713
https://urn.fi/URN:NBN:fi:amk-2020112724713
Tiivistelmä
Suomenruotsalainen viittomakieli on erittäin uhanalainen kieli. Jotta kieli elpyisi, sitä on opetettava. Opettajat tarvitsevat tietoa kielestä, ja siksi kieltä on tutkittava. Opetuksen ja tutkimuksen myötä käyttäjät voivat tulla tietoisemmiksi omasta kielestään. Tutkimusta varten kieltä pitää tallentaa videolle, ja videot tulee annotoida eli varustaa merkinnöin, jotka mahdollistavat niiden käytön tutkimuksessa. Tällaista laajaa kieliaineistokokoelmaa kutsutaan korpukseksi. Viittomakielten korpuksissa kielellisten piirteiden merkinnät, eli annotaatiot, on kytketty videon aikakoodiin, mikä tekee aineistoista tietokoneella luettavia. Koska yhdelläkään viittomakielellä ei ole kieliyhteisön käyttöön vakiintunutta kirjoitusjärjestelmää, annotoinnissa käytetään usein puhutun kielen sanoja ja lyhenteitä. Annotoinnin ansiosta korpuksen laajasta aineistosta voidaan hakea nopeasti esimerkiksi tiettyjä ilmaisuja ja tehdä vertailevaa tutkimusta korpukseen liitettyjen kielen käyttäjien taustatietojen avulla (esimerkiksi ikä, sukupuoli, alueellisuus).
Suomessa on tehty kaksi suomalaisen viittomakielen korpusta: Kuurojen Liiton Kipo-korpus vuonna 2015 ja Jyväskylän yliopiston Suomen viittomakielten korpusprojektin osakorpus vuonna 2019. Suomenruotsalaisesta viittomakielestä on jo useita korpukseksi soveltuvia kieliaineistoja, mutta niitä ei ole vielä annotoitu. Koska kielen käyttäjiä on hyvin vähän, voi olla haasteellista löytää sopivia annotoijia. Kuurojen Liiton vuosina 1998–2002 keräämään suomenruotsalaisen viittomakielen haastatteluaineistoon tehtiin annotoinnin pohjaksi alustavia kielellisiä merkintöjä ruotsiksi Lev i vårt språk eli Livs-kielenelvytysprojektissa. Opinnäytetyön tilaajana on Kuurojen Liitto, joka toivoo, että aineistoa voitaisiin alkaa annotoida mahdollisimman pian. Siksi kaikki annotointia valmisteleva kehitystyö on tärkeää.
Työn tavoitteena oli kuvailevan kirjallisuuskatsauksen keinoin koota tuleville suomenruotsalaisen viittomakielen annotoijille tärkeitä lähteitä työnsä tueksi ja nostaa esiin sellaisia ilmiöitä, joista saattaa muodostua haasteita annotointityössä. Tämä toteutettiin tutustumalla johtavien viittomakielen korpustyömaiden annotointikäytäntöihin. Vähemmistökieli on aina tiiviissä kontaktissa valtakielen kanssa, ja valtakieli vaikutus näkyy vähemmistökielessä monella tasolla. Työssä valotetaan kolmea ilmiötä, joita joudutaan mahdollisesti pohtimaan annotointityössä: a) suomalaisen ja ruotsalaisen viittomakielen vaikutusta suomenruotsalaisen viittomakielen viittomiin, b) suomenkielistä sanahahmoa huuliossa, kun viitotaan suomenruotsalaista viittomakieltä sekä c) niin kutsuttujen vanhojen ja uusien sormiaakkosten käyttöä sormituksessa, sormiaakkosen sisältävissä viittomissa ja leksikaalistuneissa sormiaakkosviittomissa.
Työtä voidaan myös käyttää tiiviinä tietopakettina, kun halutaan tutustua viittomakielen korpustyöhön ja annotointiin yleisellä tasolla. Lisäksi työhön on koottu suomeksi tietoa suomenruotsalaisesta viittomakielestä kaikille toisesta kotimaisesta viittomakielestämme kiinnostuneille, erityisesti suomalaisen viittomakielen tulkeille ja tulkkiopiskelijoille. Mikäli työ käännetään ruotsiksi, siitä on entistä enemmän iloa suomenruotsalaisen viittomakielen tutkimuksessa. Finlandssvenskt teckenspråk är ett allvarligt hotat språk. Språkforskning utgör en central del av språkrevitalisering. Forskning möjliggör undervisning i språket och genom dem kan användare bli mer medvetna om sitt eget språk. För forskning måste språket sparas på videon. Videorna måste annoteras, det vill säga markeras för att kunna använda dem i forskningen. En sådan omfattande samling av språkliga data kallas en korpus. I teckenspråkskorpusar annotationerna är kopplade till tidskoden på videon vilket gör materialet datorläsbart. Eftersom teckenspråk saknar ett etablerade skriftsystem, annoteras korpusar ofta med ord och förkortningar från det talade språket. Med hjälp av annotering kan till exempel vissa uttryck snabbt hämtas från omfattande data i korpusen, vilket gör det möjligt att till exempel jämföra med hjälp av bakgrundsinformation för de språkanvändare som är kopplade till korpusen (t.ex. ålder, kön, region).
Det finns två korpusar på finskt teckenspråk i Finland: Finlands Dövas Förbunds Kipo-korpus från 2015 och Jyväskylä universitets delkorpus av Finlands teckenspråkskorpusprojektet från 2019. På finlandssvenskt teckenspråk finns det redan en hel del lämpligt språkmaterial med tanke på en korpus men inget material är ännu annoterat. Eftersom det finns väldigt få språkanvändare kan det vara svårt att hitta lämpliga personer som kan annotera. Ett viktigt videomaterial för det finlandssvenska teckenspråket utgör intervjuer som insamlades i Finlands Dövas Förbund mellan 1998 och 2002. Preliminära lingvistiska anteckningar på svenska lades till det i språkrevitaliseringsprojekt Lev i vårt språk (Livs). Examensarbetets beställare är Finlands Dövas Förbund, som önskar att materialet kan annoteras så snart som möjligt. Därför är allt korpusrelaterat utvecklingsarbete viktigt.
Syftet med arbetet var att, med hjälp av en beskrivande litteraturöversikt, samla viktiga källor till personer som i framtiden arbetar med att annotera finlandssvenskt teckenspråk. Ytterligare ett syfte var att lyfta fram sådana fenomen som kan medföra utmaningar i annoteringsarbetet. De genomfördes genom att bekanta sig med annoteringskonventioner av de ledande länderna i teckenspråkskorpusarbete. Eftersom ett minoritetsspråk alltid är i närkontakt med dominerande språk i omgivningen påverkar de minoritetsspråket på många nivåer. Examensarbetet belyser tre fenomen som eventuellt bör beaktas i annoteringsarbetet: a) det finska och svenska teckenspråkets inverkan på det finlandssvenska teckenspråkets tecken, b) munrörelser som är lånade från finska ord när man tecknar på finlandssvenskt teckenspråk och c) så kallade gamla och nya handalfabetet när det gäller bokstavering, tecknen som innehåller bokstäver och lexikaliserade bokstaverade tecken.
Vill man bekanta sig med korpusarbetet eller annotering i allmänhet, kan arbetet användas även som ett kortfattat informationspaket. Dessutom finns det sammanställd information om finlandssvenska teckenspråket på finska, som särskilt lämpar sig för teckenspråkstolkar och tolkstudenter, men som också erbjuder en lättillgänglig information för alla som är intresserade av vårt andra inhemska teckenspråk. Om arbetet översätts till svenska blir det till ännu mer nytta för forskning i det finlandssvenska teckenspråket. Finland-Swedish Sign Language is an extremely endangered language. In order to revitalize a language, it needs to be taught. For this, teachers need knowledge of the language. Therefore, language needs to be researched. Through teaching and research, language users can become more aware of their own language. To be researched, use of language must be recorded on video, and the videos must be annotated, i.e. marked with linguistic features, connected to the video timeline. Such an extensive collection of linguistic data is called a corpus. Since no sign language community has a well-established writing system in place, corpora are often annotated with words and abbreviations of the spoken language. Thanks to annotation, for example certain expressions can be quickly retrieved from extensive material within a corpus, and comparative research can be carried out with the help of demographic information of the language users included in the corpus (e.g. age, gender, region).
Two Finnish Sign Language corpora have been made in Finland: Kipo Corpus of the Finnish Association of the Deaf in 2015 and the partial corpus of Finland’s Sign Languages Corpus Project at the University of Jyväskylä in 2019. There are already several language recordings suitable for the corpus of Finland-Swedish Sign Language, but they have not been annotated yet. Since there are very few users of the language, it can be challenging to find suitable annotators. An interview material was collected by the Finnish Association of the Deaf between 1998 and 2002. Preliminary linguistic notes in Swedish were added to it during the language revitalization project Lev i vårt språk (Livs). The subscriber of this thesis is the Finnish Association of the Deaf, that anticipates the material to be annotated as soon as possible. Therefore, all corpus-related development work is important.
The aim of this thesis was to by means of a descriptive literature review gather important sources for the future Finland-Swedish Sign Language annotators to support their work and to highlight possibly challenging phenomena in annotation work. This was carried out by getting acquainted with the annotation conventions used in the countries prominent in sign language corpus work. A minority language is always in close contact with the majority language, and the majority language influences the minority language on many levels. This work sheds light on three phenomena that may need to be considered in annotation work: a) influence of Finnish and Swedish Sign Language on signs of Finland-Swedish Sign Language, b) mouthing based on Finnish word pattern while signing Finland-Swedish Sign Language and c) using the so called old and new hand alphabets in fingerspelling, in signs that include a hand alphabet and in the lexicalized hand alphabet signs.
This thesis can also be used as a concise information package to get acquainted with sign language corpus work and annotation generally. In addition, information on Finland-Swedish Sign Language has been compiled in Finnish for all those interested in the Finland’s other sign language, especially for Finnish Sign Language interpreters and interpreting students. In case this thesis will be translated into Swedish, it will be of even more benefit in researching Finland-Swedish Sign Language.
Suomessa on tehty kaksi suomalaisen viittomakielen korpusta: Kuurojen Liiton Kipo-korpus vuonna 2015 ja Jyväskylän yliopiston Suomen viittomakielten korpusprojektin osakorpus vuonna 2019. Suomenruotsalaisesta viittomakielestä on jo useita korpukseksi soveltuvia kieliaineistoja, mutta niitä ei ole vielä annotoitu. Koska kielen käyttäjiä on hyvin vähän, voi olla haasteellista löytää sopivia annotoijia. Kuurojen Liiton vuosina 1998–2002 keräämään suomenruotsalaisen viittomakielen haastatteluaineistoon tehtiin annotoinnin pohjaksi alustavia kielellisiä merkintöjä ruotsiksi Lev i vårt språk eli Livs-kielenelvytysprojektissa. Opinnäytetyön tilaajana on Kuurojen Liitto, joka toivoo, että aineistoa voitaisiin alkaa annotoida mahdollisimman pian. Siksi kaikki annotointia valmisteleva kehitystyö on tärkeää.
Työn tavoitteena oli kuvailevan kirjallisuuskatsauksen keinoin koota tuleville suomenruotsalaisen viittomakielen annotoijille tärkeitä lähteitä työnsä tueksi ja nostaa esiin sellaisia ilmiöitä, joista saattaa muodostua haasteita annotointityössä. Tämä toteutettiin tutustumalla johtavien viittomakielen korpustyömaiden annotointikäytäntöihin. Vähemmistökieli on aina tiiviissä kontaktissa valtakielen kanssa, ja valtakieli vaikutus näkyy vähemmistökielessä monella tasolla. Työssä valotetaan kolmea ilmiötä, joita joudutaan mahdollisesti pohtimaan annotointityössä: a) suomalaisen ja ruotsalaisen viittomakielen vaikutusta suomenruotsalaisen viittomakielen viittomiin, b) suomenkielistä sanahahmoa huuliossa, kun viitotaan suomenruotsalaista viittomakieltä sekä c) niin kutsuttujen vanhojen ja uusien sormiaakkosten käyttöä sormituksessa, sormiaakkosen sisältävissä viittomissa ja leksikaalistuneissa sormiaakkosviittomissa.
Työtä voidaan myös käyttää tiiviinä tietopakettina, kun halutaan tutustua viittomakielen korpustyöhön ja annotointiin yleisellä tasolla. Lisäksi työhön on koottu suomeksi tietoa suomenruotsalaisesta viittomakielestä kaikille toisesta kotimaisesta viittomakielestämme kiinnostuneille, erityisesti suomalaisen viittomakielen tulkeille ja tulkkiopiskelijoille. Mikäli työ käännetään ruotsiksi, siitä on entistä enemmän iloa suomenruotsalaisen viittomakielen tutkimuksessa.
Det finns två korpusar på finskt teckenspråk i Finland: Finlands Dövas Förbunds Kipo-korpus från 2015 och Jyväskylä universitets delkorpus av Finlands teckenspråkskorpusprojektet från 2019. På finlandssvenskt teckenspråk finns det redan en hel del lämpligt språkmaterial med tanke på en korpus men inget material är ännu annoterat. Eftersom det finns väldigt få språkanvändare kan det vara svårt att hitta lämpliga personer som kan annotera. Ett viktigt videomaterial för det finlandssvenska teckenspråket utgör intervjuer som insamlades i Finlands Dövas Förbund mellan 1998 och 2002. Preliminära lingvistiska anteckningar på svenska lades till det i språkrevitaliseringsprojekt Lev i vårt språk (Livs). Examensarbetets beställare är Finlands Dövas Förbund, som önskar att materialet kan annoteras så snart som möjligt. Därför är allt korpusrelaterat utvecklingsarbete viktigt.
Syftet med arbetet var att, med hjälp av en beskrivande litteraturöversikt, samla viktiga källor till personer som i framtiden arbetar med att annotera finlandssvenskt teckenspråk. Ytterligare ett syfte var att lyfta fram sådana fenomen som kan medföra utmaningar i annoteringsarbetet. De genomfördes genom att bekanta sig med annoteringskonventioner av de ledande länderna i teckenspråkskorpusarbete. Eftersom ett minoritetsspråk alltid är i närkontakt med dominerande språk i omgivningen påverkar de minoritetsspråket på många nivåer. Examensarbetet belyser tre fenomen som eventuellt bör beaktas i annoteringsarbetet: a) det finska och svenska teckenspråkets inverkan på det finlandssvenska teckenspråkets tecken, b) munrörelser som är lånade från finska ord när man tecknar på finlandssvenskt teckenspråk och c) så kallade gamla och nya handalfabetet när det gäller bokstavering, tecknen som innehåller bokstäver och lexikaliserade bokstaverade tecken.
Vill man bekanta sig med korpusarbetet eller annotering i allmänhet, kan arbetet användas även som ett kortfattat informationspaket. Dessutom finns det sammanställd information om finlandssvenska teckenspråket på finska, som särskilt lämpar sig för teckenspråkstolkar och tolkstudenter, men som också erbjuder en lättillgänglig information för alla som är intresserade av vårt andra inhemska teckenspråk. Om arbetet översätts till svenska blir det till ännu mer nytta för forskning i det finlandssvenska teckenspråket.
Two Finnish Sign Language corpora have been made in Finland: Kipo Corpus of the Finnish Association of the Deaf in 2015 and the partial corpus of Finland’s Sign Languages Corpus Project at the University of Jyväskylä in 2019. There are already several language recordings suitable for the corpus of Finland-Swedish Sign Language, but they have not been annotated yet. Since there are very few users of the language, it can be challenging to find suitable annotators. An interview material was collected by the Finnish Association of the Deaf between 1998 and 2002. Preliminary linguistic notes in Swedish were added to it during the language revitalization project Lev i vårt språk (Livs). The subscriber of this thesis is the Finnish Association of the Deaf, that anticipates the material to be annotated as soon as possible. Therefore, all corpus-related development work is important.
The aim of this thesis was to by means of a descriptive literature review gather important sources for the future Finland-Swedish Sign Language annotators to support their work and to highlight possibly challenging phenomena in annotation work. This was carried out by getting acquainted with the annotation conventions used in the countries prominent in sign language corpus work. A minority language is always in close contact with the majority language, and the majority language influences the minority language on many levels. This work sheds light on three phenomena that may need to be considered in annotation work: a) influence of Finnish and Swedish Sign Language on signs of Finland-Swedish Sign Language, b) mouthing based on Finnish word pattern while signing Finland-Swedish Sign Language and c) using the so called old and new hand alphabets in fingerspelling, in signs that include a hand alphabet and in the lexicalized hand alphabet signs.
This thesis can also be used as a concise information package to get acquainted with sign language corpus work and annotation generally. In addition, information on Finland-Swedish Sign Language has been compiled in Finnish for all those interested in the Finland’s other sign language, especially for Finnish Sign Language interpreters and interpreting students. In case this thesis will be translated into Swedish, it will be of even more benefit in researching Finland-Swedish Sign Language.