2011-10-23

Datorer förstår människor - i en avlägsen framtid

Gränssnitt med naturligt språk
1995 deltog jag i ett projekt/delprojekt på SICS. Det kan ha hetat Olga. Olga hette i alla fall den så kallade "agenten", en grafiskt representerad människa som inte skulle misstas för en riktig människa, som man kunde ställa muntliga frågor om saker inom hennes kunskapsvärld. Ljudet omvandlades till skriven text som tolkades syntaktiskt och semantiskt för att sen översättas till en databasfråga som tog fram efterfrågat data. Mitt lilla bidrag var att skapa ett antal semantiska strukturer för sådant som låg inom Olgas intressesfär. Hon var rätt snävt insnöad på att veta ett 20-tal faktoider om 100 mikrovågsugnar.
Sammanfattningen kan sägas vara ett Olga var rätt bra på ett väldigt snävt område.

Hur bra pordukter kom det på samma tema?
Microsoft Office och Paper clip
Microsoft hade forskat kring "agenter" och marknadsavdelningen triggade på deras prototyp Parrot när de beslöt att lägga med "Paper clip" i Office paketet. Året kan ha varit 1996 när produkten lanserades.
Paper clip, eller Gemet, tolkade skrivna frågor och presenterade svar, men det blev en sån flopp att när man väl plockade bort det två versioner senare i Office XP så skämtade Microsoft om att XP var en förkortning för Ex-Paper clip. I ärlighetens namn, vilken fråga är lättast och snabbast att formulera?
  • "hur sidnumrering"
  • "jag skulle vilja infoga sidnumrering i mitt dokument, hur gör jag det?"
Säljargumenten granskades inte
Mellan 2000 och 2005 var väl agent-trenden starkast. Säljargumentet var att man kunde skära ner på kundservice. Å andra sidan skulle man löpande optimera träffbilden för frågorna, men det var svårt och kostade extra, så det prioriterade man ofta bort.



Dessa agenter tar bara ett godtyckligt ord ur frågan och berättar allt de vet kring det ordet. Ställde man frågan "När stänger badet på lördag?" till en kommuns agent, så hamnade man på badets sida på kommunens sajt, med information motsvarande 2 A4 papper. Hanna till höger här är i skrivande stund inte pensionerad från Försäkringskassan.

Inom en vecka kan du prata med iPhone 4S
Det är en riktig lågoddsare att förutspå att du kan prata bäst du vill med din iPhone 4½ utan att den kommer att förstå vad du menar. Inte bara att användarna har dialekter och brytningar. Informationen man vill åt är på flera språk. Man kan inte enkelt skilja kontakten Ann-Britt från Ambrit. Jag har låttexter på tyska, franska, engelska och svenska i min mp3-spelare. Jag är olika bra på att uttala dem. En bra "speach to text"-motor som klarar fyra språk är högst osannolikt att få ut på konsumentmarknaden inom en snar framtid. Dessutom innehåller låttitlar ofta oväntade ordkombinationer (exempelvis ordet mikrofonkåt) som strider mot all statistisk bakgrundsdata som gissningslogiken i motorn bygger på.
Ge mig en stavningskontroll som tar "mikrofonkåt", men inte "parktik".
Nu har Apple inte sagt att man kan styra låtval med tal, men ma ska kunna skicka SMS. Hittills har jag alltid stängt av allt skrivstöd då de bara har försvårat skrivandet i situationer då ord inte finns i telefonens ordbok.

Google Translate river alla språkliga barriärer
Det är öppet mål på gissningen att Google Translate under de närmaste 20 åren inte kommer att kunna användas till översättning. Syftet med Google Translate är att ge en bild av vad texten handlar om, fast den är skriven på ett för läsaren okänt språk. (Jag hoppas att det är syftet än idag, annars är tjänsten rätt meningslös) Nätet kryllar av skämt om manualer som verkar vara översatta med Google Translate.
Ibland hör jag på riktigt att folk vill översätta sina webbsidor eller dokument med Google Translate. Då får jag hjärtat i halsgropen.
Hur kan jag då vara så hård mot Googles eminenta team av vetenskapsmän?
Svårigheterna är:
  • Språket förändras oavbrutet, snabbast med slang och med branschuttryck.
  • Folk skriver tvetydiga, otydliga fraser med syftningsfel. Det är svårt att få med exakt samma otydlighet (tolkningsutrymme) i en översättning.
  • Folk skriver fel, både till stavning och grammatik.
  • Folk skriver inte det de menar utan det som framgår mellan raderna. Då hjälper det inte att översätta det som står på raderna. Det krävs väldigt avancerad artificiell intelligens för att få med det underliggande budskapet
  • Information saknas. En vardaglig finsk text om en tredje person kan sakna uppgifter om den tredje personens kön. Då kan orden han/hon inte användas och texten blir lätt väldigt högtravande. På samma sätt kan en svensk text sakna information om berättarens kön, vilket skapar svårigheter på andra språk.
  • Vissa ord, som är namn, varumärken eller uttryck, ska inte översättas.
Slutligen
Att datortolka naturliga språk är svårt. För vetenskapen är det värdefullt att återskapa det mänskliga gränssnittet, men jag vet inte om det är eftersträvansvärt ur ett användbarhetsperspektiv. Man vill ju inte styra bilen på det sätter så varför skulle man styra datorn eller telefonen på det sättet?

Inga kommentarer:

Skicka en kommentar