Därför ska ditt företag ha en egen röstidentitet

Kontaktcenter Röstbotar väntas få en allt viktigare roll i kontaktcentret de kommande åren. Men vilken röst ska ditt företag välja? Svenska Readspeaker är ett av de företag som hjälper dig att ta fram en unik röstidentitet.

Därför ska ditt företag ha en egen röstidentitet

Röstbotar växer i popularitet men varför ska ditt företag låta precis som alla andra? Om du inte vill använda en färdig röst från någon av teknikjättarna för din IVR (interactive voice response) eller röstbot finns det i dag möjlighet att skapa en helt unik röstidentitet.

Någonting är fel

Du är inloggad som prenumerant hos förlaget Pauser Media, men nånting är fel. På din profilsida ser du vilka av våra produkter som du har tillgång till. Skulle uppgifterna inte stämma på din profilsida – vänligen kontakta vår kundtjänst.
Telekom idag premium

Läs vidare – starta din prenumeration

  • Tillgång till vår digitala Premium-tjänst om professionell kommunikation.
  • Nischade nyhetsbrev för Professional och Contact Center.
  • Få tillgång till alla avsnitt i vår utbildnings-tv om Teams, SD-Wan och Chattbotar.
  • Sex papperstidningar om året med tydligt fokus på Telekom-branschens viktigaste frågor.
Redan prenumerant?

När Spotify nyligen skulle ta fram en unik röstidentitet till företaget hade man en tydlig plan: man ville ha en amerikansk, ganska ung och hipp kvinna från västkusten, som kunde prata om musik och bygga trovärdighet för varumärket. Rösten används främst i Spotifys hårdvara Car Thing, som överför musik mellan en mobiltelefon och bilstereon, men eftersom det handlar om en syntetisk röst kan den användas i alla Spotifys kanaler i framtiden.

– Vid en skärmlös kundupplevelse har ett företag begränsade möjligheter att profilera sig. En grafisk profil låter dig jobba med färger och formspråk men i ett ljudmedia så är enda sättet att sticka ut att ha en egen röstidentitet som återspeglar företagets värderingar, säger Niclas Bergström.

Stöder omkring 40 olika språk

Niclas Bergström, som i dag är vd och teknikchef på Readspeaker, var med och drog igång bolaget 1999. Till en början sysslade man mest med tillgänglighetshöjande tjänster, som att innehållet på en webbsida läses upp av en syntetisk röst. Men i dag står Readspeaker på flera olika ben, där ett utgörs av utveckling av talteknologi för omkring 40 olika språk med totalt 120 olika röster i dagsläget.

readspeaker
Niclas Bergström.

– Det handlar om att förbättra och fördjupa kundrelationen och igenkänningsfaktorn. Genom att ha en en egen röst skapar man trygghet och en känsla av att man känner den man pratar med.

– En kundspecifik röst gör skillnad, den skapar en igenkänningsfaktor på samma sätt som när man ser en känd logotyp, till exempel Coca-Cola. Ett annat värde är att när man har en egen röstidentitet så är det mindre viktigt vilken typ av teknik som röstboten bygger på i grunden, fortsätter Niclas Bergström.

Genom att vara oberoende av den underliggande plattformen kan företaget byta leverantör i framtiden och ändå behålla den röstidentitet som man har investerat mycket tid och pengar i att bygga upp.

Readspeaker är i dag ett av de ledande företagen inom syntetiskt tal, det vill säga den process där text omvandlas till mänskligt tal. Man har specialiserat sig på just det moment där text omvandlas till tal och har alltså inget erbjudande när det gäller röstigenkänning och att omvandla tal till text.

– Vi sysslar bara med tal eftersom det finns ett antal andra företag som gör de andra delarna så mycket bättre. Vi är experter på att utveckla talteknologi och taldesign, säger Niclas Bergström.

Helt nya möjligheter i dag

Syntetiskt tal har funnits i många år, men det var först för tio år sedan som realismen blev så hög att datorgenererat tal började bli svårt att skilja från mänskligt tal. Och teknikutvecklingen har accelererat de senaste åren, vilket öppnar för helt nya möjligheter.

– Under mina över 20 år i den här branschen har det aldrig varit mer spännande än vad det är i dag. Plötsligt har talsyntes blivit ett måste i väldigt många situationer, så har det inte varit tidigare, säger Niclas Bergström.

– Det ligger i människans natur att det som är stabilt och tryggt känns lättare och enklare. Vi människor har en väg framför oss att lära oss att bli avslappnade när vi pratar med robotar, det kommer bara att bli allt vanligare. Då är det viktigt att vi ger människor en hjälp på traven genom att skapa den tryggheten.

Readspeakers teknik gör att man kan spela in rösten från en riktig person och använda den klonade rösten i en röstbot. I Spotifys fall innebar det att man gick igenom fler än 100 kandidater innan man hittade exakt rätt person. Sedan gick man in i en studio och spelade in kvinnan när hon talade på en mängd olika sätt och läste upp olika moderna artist- och bandnamn som ibland kan innehålla olika tecken och inte bara bokstäver.

Kan uttrycka olika känslolägen

Men möjligheterna sträcker sig längre än att enbart skapa en klon av en mänsklig röst. När man väl har en fungerande modell kan man blanda in olika egenskaper från andra röstmodeller för att ändra den grundläggande röstkaraktären. Man kan också låta rösten uttrycka olika känslolägen med hjälp av den teknik som kallas ”emotional tts” (text to speech), vilket innebär att en och samma röst kan uttrycka sig på flera olika sätt.

– Det är ai-utvecklingen på talsyntesområdet som har möjliggjort detta. Rösten kan låta lite extra glad och entusiastisk eller lite mer ursäktande, förklarar Niclas Bergström.

Liksom i andra sammanhang där ai kommer till användning handlar det om att träna upp en ai-modell, så att den lär sig både hur personens röst låter, alltså den rent akustiska aspekten, och på vilket sätt personen pratar. Readspeakers forskning på området har resulterat i att man endast behöver ett par timmar av inspelat tal för att skapa en ytterst trovärdig klon av en person.

Tidigare fick man spela in enorma mängder tal, mellan 40 och 80 timmar, för att klippa upp det i mindre bitar, så kallade fonem, som lagras i en stor databas. När text sedan skulle omvandlas till tal klistrades de små bitarna ihop. Resultet kan låta realistiskt, men ger inte samma möjligheter att välja känsloläge som den moderna ai-tekniken gör.

Kan levereras på flera olika sätt

Dagens moderna röstteknik innebär att processen för att skapa en komplett röstidentitet åt företaget tar cirka sex veckor. Därefter erbjuder Readspeaker flera valmöjligheter när det gäller hur rösttjänsten ska levereras.

Ett populärt alternativ är helt molnbaserat och bygger på ett webb-api som man skickar ett anrop till. Anropet innehåller den text som ska läsas upp och några olika parametrar, varpå en ljudström skickas direkt från Readspeakers server.

De företag som har en befintlig infrastruktur på plats kan också välja att installera rösttjänsten på sina egna servrar.

– Då kan man göra väldigt många anrop samtidigt. Det fungerar bra för storskaliga talsvarssystem med tusentals samtidiga användare.

Ett tredje alternativ är att förse någon form av teknisk apparat med inbyggd talsyntes, exempelvis i ett inbäddat system i en smart högtalare. Här är fördelen att man inte behöver skicka så mycket data över nätverket och håller nere fördröjningarna i nätverket.

Hjälper kunderna hitta rätt röst

Hur gör man då för att välja en röst som passar ihop med företagets värderingar? Readspeaker hjälper ofta sina kunder att hitta en röst med rätt karaktär. Ibland vet man redan från början vilken röst man vill använda sig av, kanske för att man redan jobbat mycket med ljudmediet i radio- och tv-reklam och vill behålla den rösten.

Niclas Bergström höjer dock ett varningens finger för att anlita en känd skådespelare för att spela in företagets röst, även om det handlar om en person som matchar bolagets värderingar:

– En människa kan gå från att vara väldigt väldigt populär och omtyckt till att vara väldigt mindre omtyckt om man gör någonting väldigt fel och det är givetvis en fara man löper.

Senaste artiklarna

Telekom idag

Telekom idag Premium

Nyhetstjänsten för dig som jobbar med professionell kommunikation. Nu med nya nischade nyhetsbrev för ditt intresseområde och utbildnings-tv om aktuell teknik.