Friday 16 October 2009

Google's tower of Babel

Is machine translation all that it’s cracked up to be?
Translators have been toiling away with computer-aided translation systems for over a decade now. The idea behind it is really quite straightforward. Text translated by a translator is stored in a memory bank, not as a complete document, but as chunks of text, that is, individual words, clauses, sentences or paragraphs. If a (near) identical chunk of text appears in a subsequent document for translation, the CAT software will suggest the saved chunk of text as the most ideal option for the translator to use. Of course, in order to work effectively, you need a memory bank that has been built up over a prolonged period of time, containing thousands and thousands of these chunks. Key to its practicability is the accrual of text. And while we may wish to call it machine translation technology, in fact to be effective in the first place, all the donkey work has to be done by humans. After all, at the end of the day, it’s the translator who settles on the most fitting translation. CAT has its limitations: it only really comes into its own when extremely repetitive texts have to be translated. Its main purpose is to ensure consistency, rather than to take any short-cuts.
Google has not been slow to cotton on to this concept and you can see why. By having made web-based data available in other languages, information is now at the fingertips of a much greater number of users worldwide. To do this, researchers at Google have been trawling the web and matching thousands, if not millions of documents and web-pages which have already been translated professionally (by humans). All this data has been entered into a databank to generate huge volumes of multilingual texts, this in addition to more primitive machine-translation methods (which translate single words rather than phrases). All this data is then used as a source for their translation tool. It would be hard for me as a professional translator to knock their motives in doing this; after all, making information available to a wider audience worldwide is a laudable goal, even though their motives may be first and foremost commercial. I only have to think of the frustration I’ve suffered trying to make heads or tails of all those French, Portuguese and Spanish sites I’ve browsed over the years. The results language-wise may be pretty woeful, but Google deserve a bit of a thumbs-up for their efforts in rolling back the frontiers.

There are lots of buts here though. If I’m trying to convert a legal contract from one language to another by machine translation, the likelihood is, if it’s been written in legalese, it will come out as pretty scrambled in the target language and thus be rendered fairly useless to anyone wishing to read and interpret it seriously. Only a fool would sign on the dotted line and make it legally binding. And as a customer, I would expect any documentation or product specifications I receive from a foreign supplier to be nothing less than word-perfect in my own language. Even everyday vernacular, used for example in films or documentaries, would fail the test: the inflexibility of machine tools in translating idioms and colloquialisms used for subtitles would result in some fairly bizarre interpretations. We can reflect on many more situations in real-life where machine translation just wouldn’t work: a job application, a poem, a product manual, a love letter, a menu, instructions for medication, a presentation, a press release .... the list goes on.  
Let’s give Google credit where it’s due. They are serving a very useful purpose. But if machine translation ever does become as good as human translation, I dare say it won’t just be the likes of professional translators that will have to worry. No, a machine that actually thinks like a human is a more menacing prospect altogether.
 
A Dutch version of the text is available for readers below. The ‘ass’ responsible for translating it was Google....


Is machine translation allemaal dat het gekraakt maximaal zijn?
Vertalers zijn zwoegende weg met computer-aided translation systemen voor meer dan een decennium lang. Het idee erachter is eigenlijk heel eenvoudig. Tekst vertaald door een vertaler is opgeslagen in een geheugen bank, niet als een complete document, maar als stukken tekst, dat wil zeggen individuele woorden, clausules, zinnen of alinea's. Als een (bijna) identiek stuk tekst verschijnt in een volgende document voor vertaling, zal het CAT-software blijkt de opgeslagen stuk tekst als de meest ideale optie voor de vertaler te gebruiken. Natuurlijk, om efficiënt te kunnen werken, heb je een geheugen bank die is opgebouwd over een langere periode van tijd, met duizenden en duizenden van deze brokken. Sleutel tot de uitvoerbaarheid is de opbouw van de tekst. En terwijl we wenst te noemen machine translation technologie, in feite om doeltreffend te zijn in de eerste plaats, al de ezel werk moet worden gedaan door mensen. Immers, aan het eind van de dag, het is de vertaler die vestigt op de meest passende vertaling. CAT heeft zijn beperkingen: het komt pas echt tot zijn recht wanneer extreem repetitieve teksten moeten worden vertaald. Haar voornaamste doel is om de consistentie te waarborgen, in plaats van een short-cuts nemen.
Google heeft geen traag katoen op dit concept en ziet u waarom. Door het hebben van web-gebaseerde gegevens die beschikbaar zijn in andere talen, informatie is nu op de vingertoppen van een veel groter aantal gebruikers wereldwijd. Om dit te doen, hebben de onderzoekers bij Google zijn trawlvisserij het web en bijpassende duizenden, zo niet miljoenen documenten en webpagina's die al zijn professioneel vertaald (door mensen). Al deze gegevens zijn ingevoerd om een databank te grote hoeveelheden van meertalige teksten te genereren, dit in aanvulling op meer primitieve machine-vertaling methoden (die enkele woorden om te zetten in plaats van zinnen). Al deze gegevens worden vervolgens gebruikt als bron voor hun vertaling gereedschap. Het is moeilijk voor mij als een professionele vertaler te kloppen in hun motieven om dit te doen, immers, informatie beschikbaar stellen voor een breder publiek wereldwijd is een lovenswaardig doel, ook al zijn hun motieven kunnen worden in de eerste plaats commercieel. Ik heb alleen te denken aan de frustratie heb ik geleden probeerde te koppen of staarten van al die Franse, Portugese en Spaanse sites die ik heb gebladerd door de jaren heen te maken. De resultaten taal-wijs kan mooi jammerlijk worden, maar Google verdient een beetje een thumbs-up voor hun inspanningen in het terugschroeven van de grenzen.
Er zijn veel maren hier wel. Als ik probeer een wettelijk contract omzetten van de ene taal naar de andere door machine translation, de kans is, als het is geschreven in Legalese, zal het komen als een mooi vervormd in de doeltaal worden gemaakt en dus vrij nutteloos voor iedereen wensen te lezen en te interpreteren serieus. Alleen een dwaas zou tekenen op de stippellijn en maken het juridisch bindend. En als een klant zou ik verwachten dat alle documentatie of productspecificaties ik ontvangen van een buitenlandse leverancier aan niets minder dan woord-perfect zijn in mijn eigen taal. Zelfs alledaagse volkstaal, gebruikt bijvoorbeeld in films of documentaires, zou mislukken van de test: de inflexibiliteit van gereedschapswerktuigen in het vertalen van uitdrukkingen en spreektaal gebruikt voor ondertitels zou resulteren in een tamelijk bizarre interpretaties. We kunnen geven van veel meer situaties in het echte leven waar machine translation gewoon niet zou werken: een sollicitatie, een gedicht, een product handleiding, een liefdesbrief, een menu, instructies voor de medicatie, een presentatie, een persbericht .. .. de lijst gaat.
Laten we Google-krediet waar het verschuldigd. Ze zijn het bedienen van een zeer nuttig doel. Maar als machine translation heeft ooit zo goed als menselijke vertaling, durf ik zeggen dat het niet alleen het graag van professionele vertalers die zullen moeten zorgen. Nee, een machine die daadwerkelijk denkt als een mens is een meer dreigend vooruitzicht helemaal.