Haluan suomentaa, en ruveta tekoälyn jatkeeksi

Toissaviikolla huomioni kiinnitti Karo Hämäläisen kirjoitus Suomen kuvalehden blogissa: Gummerus on käännättämässä Lucy Scoren kirjoittamaa viihderomaanisarjaa tekoälypohjaisesti. Koneen tekstiä ei toki julkaista sellaisenaan, vaan sen muokkaavat julkaisukuntoon ihmiset. Toimintatapaa kutsutaan usein konekäännöksen jälkieditoinniksi.

Aiheella on uutisarvoa, koska Gummerus on nyt ensimmäinen ”perinteinen” Suomessa toimiva pitkän linjan kustantamo, joka tarttuu tekoälypohjaisiin käännöksiin. Lukuaikapalveluissa on nähty jonkin verran tekoälypohjaisia suomennoksia jo suunnilleen vuoden, parin verran, mutta niiden kustantajat ovat Suomen kirjamarkkinoilla uusia toimijoita. Tällä tavoin käännätettyjä paperikirjoja en ole toistaiseksi kohdannut.

Tässä kirjoituksessa pyrin avaamaan omaa näkemystäni ja selventämään, miksi tekoälypohjainen kirjallisuuden kääntäminen herättää ainakin minussa vastustusta. Näkökantani ovat omiani, en siis kommentoi minkään tahon edustajana. Aiheesta kirjoittaminen on samalla minulle yksi tapa, jolla yritän itsekin hahmottaa omia ajatuksiani. Osa niistäkin jää silti väistämättä sanomatta tässä yhteydessä – vaikka tämä postaus on pitkä kuin nälkävuosi, en saanut ahdettua esimerkiksi tekijänoikeuspohdintaa tähän mukaan.

En ole mikään varsinainen tekoälyasiantuntija enkä edes nimenomaisesti suurten kielimallien asiantuntija (tässä on kyse juuri sellaisista), vaan suomentaja. Minusta jonkinlaisen näkemyksen muodostaminen vaatii silti myös sitä, että rohkaistun pohtimaan problematiikkaa, vaikken tiedä siitä kaikkea.

Mikä on kirjan raakakäännös?

Usein kääntäjien ja ehkä käännösten käyttäjienkin tekoälyhuolia hälvennetään korostamalla, että tekoälyohjelma tuottaa tietysti vain raakakäännöksen ja ihminen hioo sen lopulliseksi käännökseksi. On kuitenkin syytä pysähtyä miettimään, mitä tämä tarkoittaa.

Meille suomentajille annetaan tyypillisesti yksi keskeinen deadline, kun sovitaan kirjan (tai vaikkapa novellin tai näytelmän) kääntämisestä. Se on määräpäivä, jolloin suomentajan on palautettava käännöskäsikirjoituksen ensimmäinen valmis versio kustantajalle. Tämä käsikirjoitus on jo pidemmälle hiottu teksti kuin se, mitä raakakäännöksellä tarkoitetaan – toki siinä saa olla esimerkiksi kustannustoimittajalle suunnattuja kysymyksiä ja pohdintaa mahdollisista vaihtoehdoista, mutta sen on tarkoitus olla niin hyvin editoitu kuin mihin suomentaja omin voimin ennen kustannustoimittajan kommentteja kykenee. (Tämän jälkeen kustannustoimittaja antaa kehitys- ja korjausehdotuksensa ja suomentaja muokkaa tekstiä niiden pohjalta entistä paremmaksi, ja lopuksi vielä taittamisen jälkeen oikolukija ja suomentaja tarkistavat vedoksen ja tekevät viimeiset viilaukset.)

Raakakäännös on siis jokin käsikirjoitusversiota edeltävä versio tai työvaihe. Aina se ei ole edes selvästi osoitettavissa. Keskusteluista kollegoiden kanssa olen oppinut, että työtavat vaihtelevat laidasta laitaan. Joku saattaa nakuttaa kolme kuukautta työskentelyä vaativan käsikirjoituksen kokonaisen raakaversion alusta loppuun kuukaudessa ja käyttää kaksi kuukautta sen editoimiseen käsikirjoitukseksi. Joku toinen taas vuorottelee raakakääntämisen ja muokkaamisen välillä koko prosessin ajan, niin että raakiksesta tulee käsis kuin varkain. Minulle tyypillistä on, että pyrin alkuvaiheessa kääntämään esimerkiksi kirjan ensimmäiset 50 sivua miettimättä muokkaamista ja parantelua lainkaan, mutta sen jälkeen alan vähitellen muokata jo tehtyä, niin että se kokonainen versio, jota ennen kalmanlinjaa muokkaan, on jotain raakiksen ja käsiksen väliltä. Usein olen myös kirjan loppuneljänneksen kieppeillä päässyt niin hyvään vauhtiin, että jo ”raakakierroksella” syntyy miltei julkaisukelpoista tekstiä.

Olen lähinnä testaillut konekääntimiä, kuten Google Translatea ja ChatGPT:tä, luonnollisesti vain lyhyillä tekstinpätkillä, joiden tekijänoikeudet ovat vanhentuneet, mutta tähän asti ne ovat tuottaneet huomattavasti heikkolaatuisempaa raakakäännöstä kuin minä. Säästääkö edes sormia, jos jokainen virke on rakennettava uudestaan? Koneen raakakäännös ja ihmisen raakakäännös eivät ole sama asia, ja tämä on syytä tiedostaa ennen kuin ruvetaan puhumaan käännösprosessista mitään.

Itse tehty raakakäännös vie kirjan maailmaan

On toki odotettavissa, että tekoälypohjaiset kääntimet kehittyvät juuri siinä, kuinka uskottavalta ja oikeelliselta kohdekieliseltä (siis suomennoksen tapauksessa suomenkieliseltä) tekstiltä koneen tuotos näyttää. Minun näkökulmastani se ei kuitenkaan ole keskeisintä. Paljon tärkeämpi ero on se, mitä mielessäni tapahtuu raakakäännösvaiheen aikana.

Jokainen virke, lause, sana, kirjain ja välimerkki, jonka kääntäessäni naputan, auttaa minua pääsemään syvemmälle kirjan maailmaan – riippumatta siitä, jääkö se tekstiin hetkeksi, moneksi päiväksi vai painettuun kirjaan asti. Toisin kuin kone, minä luen. Muodostan kirjan maailmasta käsityksen lukemisen ja kääntämisen toisiinsa kietoutuvien prosessien avulla. Miltä täällä näyttää, tuntuu, tuoksuu, kuulostaa? Millainen on henkilöiden totuttu maailma, totutut ajatukset, entä mikä heidät yllättää tai vinksauttaa heidän vanhan maailmansa sijoiltaan? Millaisia he ovat luonteeltaan ja taustaltaan? Miten he reagoivat tapahtumiin sanoin ja elein? Milloin he ovat sarkastisia, tunteikkaita, vuolaita, tylyjä, pelokkaita, itseironisia tai ilahtuneita?

Kaikki tämä pyörii päässäni, kun käännän. Teen tulkintoja, korjaan käsityksiäni, huomaan kirjan kaaren aikana tapahtuvat muutokset ja vaikkapa sen, kun kirjailija johtaa ensin lukijaa harhaan ja tarjoilee sitten yllätyksen. Osin se on tietoista analysointia, osin intuitiivista, mutta koko tämä tulkintaprosessi on käynnissä siitä alkaen, kun alan lukea tarjottua kirjaa, siihen asti, että käännös menee painoon.

Kun teen raakakäännöksen itse, mikään siitä ei siis ole turhaa, vaikkei päätyisikään lopulliseen tekstiin. Toisin olisi koneen ilmoille pulpauttaman tekstimateriaalin suhteen. Kone ei tulkitse, se vain mallintaa ja laskee tilastollisia todennäköisyyksiä. Kirja on sille pelkkä sanojen verkosto – eikä se pysty edes vastaamaan siihen, miksi tarjoaa tiettyyn kohtaan tiettyä ilmausta. Mitä hyötyä minun prosessilleni siis olisi tekstimassasta, joka ei syvennä ymmärrystäni alkuteoksesta? Ei mitään. Joutuisin joko jättäytymään koneen tilastollisten ehdotusten armoille tai epäilemään jokaista sanaa.

Milloin kehitys on kehitystä ja kenelle?

Teknisiä innovaatioita on kohdattu ennenkin. Minulla on vielä jonkin verran kollegoita, jotka ovat aloittaneet uransa kirjoituskoneiden aikakaudella. Monesti eri teknologiat elävät myös rinnan: teen suuren osan käännöstyöstäni tietokoneen tekstinkäsittelyohjelmalla, mutta silloin tällöin pysähdyn pohtimaan vaihtoehtoja tai merkitsemään häiritsevän ajatuksen muistiin kynällä paperille. Internetin lisäksi haen usein taustatietoa myös kirjastoista.

Aiheesta on luultavasti tutkimustakin, mutta ainakin itse hahmotan teknologisen innovaation hyödyllisyyden kolmen kysymyksen avulla:

  1. Parantaako se laatua?
  2. Säästääkö se aikaa, rahaa ja/tai muita resursseja?
  3. Parantaako se työskentelyolosuhteita?

Ihannetapauksessa vastaus kaikkiin kysymyksiin on kyllä. Joskus vertailu voi olla tietyn aspektin suhteen hankalampaa, mutta muiden sen verran selkeää, että hyötyyn on helppo uskoa. En esimerkiksi mene vannomaan, ettenkö saattaisi jopa saada aikaan paremman käännöksen, jos kirjoittaisin sen ensin kokonaan kynällä paperille, mutta koska se veisi niin paljon aikaa eikä ranteenikaan varmaan kestäisi (ja koska tarvitsen tiedostoversion joka tapauksessa), en käännä sillä tavalla muita teoksia kuin korkeintaan joidenkin kymmenten säkeiden mittaisia runoja.

Vastaus saattaa olla myös erilainen eri näkökulmista. On ilmeistä, että Gummeruksessa ei olisi päätetty kokeilla tekoälypohjaista käännösprosessia, jollei siitä olisi odotettavissa kustantamolle hyötyjä. (Siinä on kuitenkin esimerkiksi maineriski, joka luultavasti on huomioitu yhtälössä. Laskelmiin vaikuttanee toisaalta myös se, että Gummeruksen on omistanut vuodesta 2019 alkaen Storytel.) Mutta kun ajattelen omaa työtäni, tekoälykääntimet ja erityisesti niiden sellainen käyttö, jossa ihminen saa sellaisenaan eteensä tekoälyn tuottaman tekstimassan voimatta vaikuttaa sen tuottoprosessiin, olisi silkka riesa: tekisi työstä kurjempaa tai pakottaisi minut luopumaan laatutavoitteistani, jos haluaisin saavuttaa merkittäviä ajansäästöjä ja taloudellista hyötyä.

Eri toimijoilla lienee eri tasoisia palkkioita, mutta esimerkiksi Euroopan kirjallisuudenkääntäjien neuvoston CEATLin vasta julkaistun kyselyn (kysely tehty loppuvuodesta 2023) mukaan tyypillistä on, että jälkieditoinnista maksetaan vähemmän kuin alusta asti kääntämisestä, vaikka se vaatisi enemmän työtä (tästä verkkosivulle, oikeanpuoleinen kyselyraportti, tästä suoraan pdf:ään; sivut 30 ja 31). Ärsyttävämpää ja epämielekkäämpää työtä enemmän vähemmällä rahalla ja ammattiylpeyden näivertyminen kaupan päälle? Ei tule kauppoja.

Kirjojen, kielen ja kulttuurin ekosysteemit

Ansaitsen tätä nykyä vuodesta riippuen noin 95 prosenttia elannostani suomentamalla – suoraan palkkioina, suomennosteni lainauskorvauksista ja hyvänä vuonna suomennostyöhön tarkoitetuista apurahoista. Olen siis ilman muuta puolueellinen, mutta en ole ensisijaisesti huolissani toimeentulostani. Kuten edeltävästä tulee ilmi, minusta tekoäly ei pysty kilpailemaan samassa sarjassa minun kanssani. Lisäksi kirjailijat ovat heränneet ilmiöön: nykyään yhä useampi kirjailija asettaa käännösoikeuksien myyntiehdoksi sen, että kirjaa ei saa käännättää tekoälyavusteisesti eikä syöttää tekoälyohjelmalle.

Toistaiseksi on vaikuttanut siltä, että kustantajat ovat – jos ovat – kiinnostuneita konekäännöksistä lähinnä melko kevyeksi viihteeksi luokiteltavien kirjojen kohdalla. Kioskikirjallisuus on toki jo vanha ilmiö ja sitä on sekä julkaistu että käännätetty melko liukuhihnamaisesti ennenkin (muttei pelkästään liukuhihnamaisesti), mutta olen silti huolissani siitä, syventääkö uusi tilanne mielestäni melkoisen keinotekoista taiteen ja viihteen jakoa. Entä onko vaarana, että kirjansa nimenomaan lukuaikapalveluista lukevat ja kuuntelevat ajautuvat algoritmin ohjaamina tiedostamattaan juuri tekoälypohjaisten käännösten pariin? Vaikken itse juuri lue esimerkiksi romantiikkaa tai agenttijännäreitä, minusta on kamala ajatuskin, että niistä pitävät eivät muka olisi ansainneet kielellisesti luovia ja vivahteikkaita tarinoita.

Olen miettinyt viime viikkoina paljon myös sitä, miten tekoälyn yleistyminen siirtää valtaa luovilta ammattilaisilta teknologiafirmoille: potentiaalisesti niin rahaa, arvokasta dataa kuin jopa päätösvaltaa sisältöön. Kun minä muokkaan itse tekemääni käännöstä, opin. Toimituskierroksella muokkauksista opimme sekä minä että kustannustoimittaja. Jos taas tekisin tekoälykäännöksen jälkieditointia, sitoutuisin samalla opettamaan algoritmia, johon minulla ei ole mitään omistusoikeutta. Minkähänlainen on tekoälykäännätettävän viihdekirjailijan näkökulma? Saako hän lisäkorvauksen tekoälyn kouluttamisesta? Painostetaanko häntä sellaisiin kielellisiin valintoihin, jotka olisivat mahdollisimman algoritmiystävällisiä? Saammeko pian tusinaviihdettä suoraan tekoälyn kirjoittamana?

On niitäkin, joista kuulostaa houkuttelevalta saada nopeasti markkinoille helposti kulutettavia kirjoja. Viihde- ja kulttuuriteollisuus laajemminkin ottaen hakee ensinnäkin hittejä ja toisekseen massaa, lähetysvirtaa. Kuukausimaksava asiakas sitoutetaan palveluun vaivattomuudella, tarjoamalla algoritmien avulla ”jotain kivaa” tylsiin hetkiin, ei niinkään yksittäisillä teoksilla, jotka kenties houkuttelevat asiakkaan kokeilemaan palvelua alun alkaen. Ja tietysti minustakin on välillä ihanaa antautua ahmimaan jotain, oli kyse kirjoista, tv-sarjoista tai peleistä. Olen silti alkanut vierastaa ahmimiskulttuuria. Jatkuvasti annosteltuna se ei tee ainakaan minulle hyvää, vaan muuttaa arjen dopamiinipiikkimössöksi, josta ei jää oikein muistojakaan. Melkoisen kyberpunkia, enkä toivoisi yhteiskunnan muuttuvan tästä yhtään dystooppisemmaksi.

Kirjan elinkaari on muutenkin lyhentynyt, ja pelkään, että jos liukuhihnatuotettu kirjavuo valtaa alaa, harkituille ihmisen tekemille teoksille jää entistä vähemmän elintilaa ja kulttuuri algoritmisoituu entisestään. Tällä saattaa olla arvaamattomia vaikutuksia myös kieleen. Suuret kielimallit ovat, kuten jo sanottu, luonteeltaan tilastollisia. Kun niitä hyödynnetään kirjojen tekemisessä, ilmaisun latistuminen, kapeutuminen ja tasapäistyminen on aivan ilmeinen vaara. Vaikka editoimassa olisi kuinka luova ihminen, tekoälyn ehdotukseen on helppo jäädä kiinni. Etenkin englannin ja muiden suurten kielten vaikutus pienempiin saattaa vahvistua entisestään. Harrastuneet löytävät todennäköisesti kielellisesti haastavia teoksia edelleen, mutta mitä merkitsee esimerkiksi kansalaisten lukutaidolle, jos vivahteikkaalle ja hyvälle kielelle on entistä vaikeampi altistua?

Sitten on vielä tämä ekosysteemi, jossa kaikki elämme. Mitä enemmän teknologiaa käytetään, sitä enemmän se vaatii energiaa. Käännös- ja keskustelutekoälyjen suuret kielimallit vaativat runsaasti palvelinkapasiteettia. Omaa haluani edes leikkiä tekoälysovelluksia hillitsee huomattavasti ajatus siitä, että ne todennäköisesti kiihdyttävät ilmastonmuutosta ja välillisesti tappavat ihmisiä. Mutta kun globaali talous on mitä on, vaikutuksia on hyvin vaikea edes arvioida.

Tekoälylle on varmasti monella alalla perusteltua käyttöä, jonka hyödyt ylittävät verrattomasti kaikki haitat. Se on hyvä käsittelemään suuria datamassoja. Kieliammattilaisellekin voisi sen avulla tarjota esimerkiksi parempia konkordanssikorpuksia, synonyymisanakirjoja tai analyysityökaluja. Mutta kun ajattelen kaikkea luovaa, mihin ihminen on todistetusti jo muutaman tuhannen vuoden ajan pystynyt, kantani on selvä. Minä olen tällä alalla, koska uskon kirjoihin, kieleen ja luovuuteen, en muuttuakseni työkalujen jatkeeksi.

Pari linkkivinkkiä kiinnostuneille

En jaksa blogissani lähteistää kovin tarkasti, ja edellä kirjoittamani ajatukset ovat tulosta niin monista lukemistani jutuista, käymistäni keskusteluista ja elämästäni elämästä, ettei niitä voisikaan suoraan kiinnittää tiettyihin lähteisiin. Tässä kuitenkin kiinnostuneille (loput voivat lopettaa lukemisen tähän, jolleivät jo lopettaneet) muutama lukuvinkki.

Euroopan kirjallisuudenkääntäjien yhdistysten neuvoston CEATLin julkaiseman Counterpoint-verkkolehden numero 10 (joulukuu 2023) oli ”tekoäly ja kirjallisuuden kääntäminen” -teemanumero. Oli ilo olla mukana sen toimitustiimissä! Tuhdisti tietoa juridisista puolista kirjailijoiden pohdintoihin siitä, mitä he ajattelevat teostensa kääntämisestä. Counterpoint täällä, ja suora pdf-linkki ko. numeroon tässä. Englanniksi, saatavilla myös ranskaksi. Huomionarvoinen on myös CEATLin tekoälyjulkilausuma, CEATLin omilla sivuilla esim. täällä, SKTL:n sivuilla linkki myös suomennokseen (suora pdf-linkki tässä).

Luovat ry (Luovan työn tekijät ja yrittäjät) on viime päivinä julkaissut monta kiinnostavaa tekstiä tekoälystä luovilla aloilla. Tässä esimerkiksi Hanna Kangasniemi haastattelee tekijänoikeuksia ja tekoälyä tutkivaa juristia Anton Ylikalliota. Muita juttuja en ehtinyt vielä lukea, mutta ajankohtaista-osiosta ne huomaa hyvin.

Suuren yleisön mediassakin on kaikkea kiinnostavaa. Hiljattain Helsingin Sanomissa taloustoimittaja Juha-Pekka Raeste kävi läpi viimeaikaista kehitystä datatalouden näkökulmasta otsikolla ”Taistelu tietomassoista”. Guardian uutisoi Society of Authors -järjestön kyselystä ja kääntäjien huolista; on tosiaan huomionarvoista, että tekoälyn vaikutus on muissa kääntämisen lajeissa paljon suurempi jo nyt, mikä puolestaan vaikuttaa alan kokonaistilanteeseen, sen sisäiseen liikkuvuuteen ja esimerkiksi vastavalmistuneiden työmahdollisuuksiin.