Unos vd ber om ursäkt

Operatörer De stora störningarna i Uno Telefonis molntjänst är åtgärdade. Då kliver företagets vd Jonas Angleflod fram och gör en riktig pudel. Han medger samtidigt att Uno kände till den risk som orsakade avbrottet.

Efter Telekom idags artikel i fredags om störningarna i Uno Telefonis tjänst har vi sökt Jonas Angleflod för en uppföljande kommentar. På måndags förmiddagen nåddes vi istället av ett brev som han skickat ut till kunder och partners med rubriken ”Jag vill be om ursäkt”.

Jonas Angleflod konstaterar först att samtliga Uno Telefonis kunder drabbas i någon omfattningar av fredagens störningar. Det handlar om minst 30 000 användare, varav en del inte kunde nyttja tjänsten under nästan hela dagen. Han beklagar dessutom att informationen om läget och åtgärderna var bristfällig.

Kända brister

Det visade sig vara två brister systemet som orsakade störningarna och som har åtgärdats under helgen (se även ruta om händelseförloppet och åtgärderna):

1. Det fanns för få aktiva punkter för att ta in trafik från internet.

2. Det var ett för stort antal applikationer per system för att de skulle kunna hantera en massiv mängd inkommande trafik.

Det värsta är, enligt Jonas Angleflod, att de här bristerna varit kända av Uno Telefoni. Han skriver så här:

”Sanningen är att vi identifierade risken för det som inträffade redan för ett år sedan. Vi bedömde den då som väldigt låg och tog upp risken igen för sex månader sen och bedömde den då som något vi bör bygga bort på sikt. Det gjordes inte och jag skäms över att vi hanterade en potentiell risk på det sättet.

Det är helt oacceptabelt och det finns inga ursäkter från våran sida.

Vi gjorde helt enkelt fel. Inte bara för att det påverkade din kontakt med kunder, familj och vänner utan för att vi faktiskt kunde ha förhindrat att det hände över huvud taget. Däri ligger vår största brist.”

Kundernas förtroende

Det är tydligt i Jonas Angleflods brev till kunderna att han är orolig över att förlora deras förtroende. Han lovar bot och bättring:

”Jag kan aldrig garantera dig att tekniska fel aldrig mer kommer uppstå. Men jag kan lova dig att vi aldrig mer kommer hantera en potentiell risk på det sättet och vi kommer se till att du får rätt information, i tid, löpande om något händer.”

Förutom de tekniska åtgärderna under helgen (se ruta här intill) har Uno-ledningen tagit fram en informationsrutin som ska användas när fel inträffar. De ska skicak ut mejl direkt vid problem som riskerar hänga i under mer än 15 minuter. Därefter ska hemsidan uppdateras löpande, minst fyra gånger per timme med information om uppskattad åtgärdstid, vilka tjänster som påverkas och på vilket sätt.

Den enda information som ligger upp på hemsidan vid måndag lunch ser ut så här:

”2013-10-28 Driftstörningen från i fredags är i dagsläget helt avskriven./Uno Drift”.

Fakta

Så här gick det till

Unos vd beskriver i ett brev händelseförloppet under det omfattande tjänsteavbrottet i fredags och arbetet som har gjorts under helgen:

”Kl. 10:06 slutade en process fungera i vårt primärsystem som hanterar trafik från Internet. Det är ett system som ser till att endast rätt trafik släpps in till oss vilket gör att allt från Internet måste passera där. När den processen slutar fungera loggas alla applikationer (Uno Mjuk, mobilappar, bordstelefoner) ut och behöver logga in igen, vilket normalt sett inte skapar ett större avbrott än ett par sekunder. Alla nya inloggningar görs då automatiskt mot ett sekundärt system som står aktivt. Det blir en stor mängd trafik på grund av att alla applikationer ska logga in samtidigt och det i sig är inget problem.

Däremot får ett av kundsystemen problem med att logga in alla applikationer vilket gör att det köas upp en stor mängd trafik mot det kundsystemet. Säkerhetssystemet som kontrollerar trafik från Internet är designat att hjälpa till när något sådant händer vilket gör att det börjar köa upp inkommande trafik mot det drabbade kundsystemet så att det ska bli mindre trafik och lägre belastning. När det händer blir den totala mängden aktiva processer för stor för även detta system vilket gör att det startar om och alla applikationer loggas ut igen.

Den här processen fortsätter fram och tillbaka ett antal gånger med ca. 10-15 minuters mellanrum ända fram till kl. 11:00 då vi får stopp på en delmängd av trafiken mot oss utifrån Internet. Då börjar vi aktivt blockera inkommande system från olika delar av Internet vilket gör att växeltjänster, fast telefoni och mobiltelefoner är fungerande för de allra flesta kunder, Tyvärr dock inte alla.

Sedan arbetar vi successivt med att sakta släppa in mer och mer trafik från Internet vilket tyvärr i några lägen skapar liknande omstarter av processer i systemen som kontrollerar trafik mot Internet. Det här pågår fram till kl. 15:10 då vi har all trafik under kontroll och kan förbereda åtgärder för att ta bort risken för att något liknande ska inträffa.

Åtgärder under helgen

I grunden identifierade vi två saker som skapade problemet.

  1. Vi behöver se till att det finns flera aktiva punkter där vi tar in trafik från Internet
  2. Vi behöver se till att minska antalet applikationer per system för att systemen ska kunna hantera en massiv mängd inkommande trafik.

Under helgen är det de här två sakerna vi har arbetat med. Vi har satt in fler aktiva system som fördelar trafiken från Internet mellan sig. Skulle ett av dessa system få problem kommer det endast resultera i en återinloggning för en delmängd av alla våra applikationer vilket gör att trycket blir mindre. Det i sin tur tar även ner belastningen mot kundsystemen vid en sådan händelse.

Vi har dessutom flyttat flertalet kunder (och därmed applikationer) till nya system vilket också minskar belastningen på systemen vid en liknande händelse.”

Telekom idag

Telekom idag Premium

- för dig som behöver full koll på framtidens kommunikation. Nu med nya nischade nyhetsbrev för ditt intresseområde.