Svårt att förutse oväntade fel

När det här publiceras håller S.E.E. på för fullt. Tisdagen gick precis som det var tänkt, men jag tänker inte skriva om det just nu. I stället tänkte jag ta upp ett par av förra veckans tekniska missöden. Det var faktiskt ingen bra vecka för datorer och elsystem. Speciellt inte för hårddiskar i supersäkra serverhallar.

Nasdaq gick ner
Nyheten om att börsens datorer låg nere gick inte att missa på måndagen förra veckan. Det ryktades om en brandincident hos Nasdaq, men det mesta verkade väldigt underligt. Märkligast var att man inte lyckades få igång det hela förrän efter dryga fem timmar.

Normalt sett skall det här förstås inte kunna hända. Nasdaq betalar dyra pengar för att ha tillgång till säkrast tänkbara system i de allra säkraste lokalerna med de allra bästa skydden mot brand, intrång, bomber och vad det nu kan vara. Det finns förstås utmärkta backupsystem också.

Ändå dök hela primärsystemet och vad det verkar också det grundläggande backupsystemet. Först efter flera timmar fick man upp ett backupsystem på ett helt annat ställe. Vad var det som hände?

Fellarm
Vid det här laget har tidningarna publicerat en rad olika detaljer och det går att pussla ihop en ganska osannolik kedja av händelser. Pinsamt nog verkade alltsammans ha börjat med ett fellarm, där någon av misstag råkade krossa glaset till en brandlarmsknapp och starta brandskyddssystemet.

I en serverhall vill man naturligtvis inte spruta vatten, så i stället för sprinklers fylls datorrummen snabbt med en inert gas som ersätter syret och stoppar brand. Tidigare var det för det mesta halon, men också koldioxid fungerar. För att så snabbt som möjligt fylla rummet med gas används insprutningsmunstycken med mycket högt tryck. Allt helt enligt regelboken.

Nu var det ju ingen brand, utan bara ett fellarm, så lokalerna ventilerades snabbt ut igen. För serverföretaget borde det nu bara vara att återstarta systemen och ge personalen en snabbkurs i vad man inte bör göra med brandlarmsknappar.

Brandskyddet dödade hårddiskarna
Men det gick inte att starta systemen. Efter en snabb kontroll visade det sig att alla hårddiskar var förstörda.

Gissningsvis innebar det också att också det primära backupsystemet slagits ut, men den informationen har jag inte hittat någonstans ännu. Att det tog hela fem timmar att återskapa systemet innebär i alla fall att de normala backuprutinerna inte fungerade.

Den stora frågan är förstås vad som så snabbt kan döda så många hårddiskar. Konspiratörer skulle säkert gissa på främmande makt, EMP-vågor eller elaka rymdvarelser.

Svaret är mycket enklare än så. När den brandskyddande gasen släpps ut från sina högtrycksmunstycken genereras ett helvetiskt oväsen. Ljudnivån blir hemsk och det är något som moderna hårddiskar inte klarar av.

Faktum är att hårddiskar blir mer känsliga för ljud ju nyare de är. Avståndet mellan ”tonhuvudet” och skivan är idag löjligt litet, inte minst på moderna heliumfyllda enheter.

Brendan Gregg, en välkänd datornörd med bakgrund, bland annat hos Sun Microsystems, visar i ett några år gammalt videoklipp hur man kan förstöra prestanda hos hårddiskar genom att skrika åt dem. Mycket underhållande och kanske något för serverföretagen att titta på. Gregg förstörde i och för sig inte diskarna, men han skrek heller inte lika högt som högtrycksmunstyckena.

Efter fem långa timmar hade Nasdaq ett reservsystem uppe och börsen kunde fungera igen. Hur mycket det hela kommer att kosta är svårt att överblicka, men skadeståndskraven kommer säkert att bli mycket höga. Som det kan gå.

Tjörn utan ström igen
För egen del hade jag inga problem med börskraschen. Jag tog förra veckan en rundtur runt Blekinge och Tjörn och fixade lite av varje. Men på morgonen i söndags sträckte jag ut handen för att sätta på radion och inget hände. En kontroll visade att huset var helt utan el och att problemet rimligen kom utifrån.

Som tur var fungerade mobilnätet, så jag kunde göra en snabb webbsökning för att hitta problemet. Första länken som kom upp var Tjörns Kommun, som enligt länkinformationen har kontroll på lokala problem, framför allt elavbrott. Bra tänkt.

Tyvärr hade man inte tänkt på att elavbrott också påverkar lokala webbservrar, så det gick inte att komma åt informationen. Så kan det gå när man inte tänker hela vägen.

Ellevio, som har hand om näten på Tjörn och Orust, hade i alla fall en fungerande sida med felinformation och uppenbarligen ligger den inte i det egna elområdet. Där kunde jag hitta informationen att hela Tjörn och delar av Orust saknade ström sedan 05.58 och att det hela förhoppningsvis skulle vara fixat framåt 14.00. Åtta timmar utan el med andra ord.

Tja, med Ellevio får man kanske vänja sig vid sådant. I somras (29 juli) hände mig samma sak. Också då låg elförsörjningen på hela Tjörn nere (läs Tveksamma prioriteringar). Den gången på en lördag, alla affärer tvingades stänga och jag kunde inte köpa den flaska riesling som jag hade tänkt. Andra hade betydligt större problem.

Kunde varit värre
Man får ändå säga att Ellevio haft tur. Stora elavbrott på lördag och söndag är väldigt mycket bättre än samma sak under arbetstid. För att inte tala om åtta timmars avbrott när det är riktigt svinkallt.

Nu vet jag i och för sig inte hur ofta man faktiskt haft avbrott. Jag är ju inte på Tjörn hela tiden. Jag vet heller inte vad det senaste avbrottet berodde på, bara att det handlade om ”tekniska problem”.

Men jag vet att åtta timmars elavbrott, trots vackert väder, tyder på att någon har dåliga backuplösningar eller dålig kontroll på verksamheten. Eller så är det helt enkelt så att något helt oväntat har inträffat, ungefär som de förstörda hårddiskarna hos Nasdaq.

Sårbart
Helt klart är att sårbarheten hos moderna system är väldigt mycket större än många tror. Självklart försöker man säkra upp systemen mot alla problem som man kan förutse, men det räcker inte. Det finns alltid massor av problem som ingen har förutsett.

Att datorsystem är sårbara är inget nytt. Inte heller att Internetanslutna datorsystem är mer sårbara än andra. Idag gör vi vårt bästa för att lappa och laga, men säkerhetssystemen ligger alltid ett steg efter. Problem hanteras efter att de hänt.

I det läget är det lätt att bli fundersam över tankar på superintelligenta elnät som styrs av molnbaserade datorsystem. Redan dagens elnät är tillräckligt krävande att hålla igång och det kommer garanterat inte att bli lättare med kraftigt fluktuerande produktion och krav på ögonblicklig detaljstyrning. Det hela kan bli väldigt jobbigt.

Om man vill sova riktigt dåligt om natten är det bara att tänka ut ett scenario där någon faktiskt vill ställa till problem. Ett utslaget elnät över hela landet skulle vara en total mardröm. All handel går omedelbart i stå och mycket av vår infrastruktur slås ut.

Vårt moderna samhälle saknar faktiskt backupsystem på ett sätt som vi knappast tidigare sett. Vi har inte ens ett fungerande betalsystem om datasystemen slås ut. De flesta av oss har nästan inga kontanter hemma. Det hela är ganska gräsligt.

Säkerhetsfrågor
Därför är det lätt att förstå varför säkerhetsfrågorna blivit så viktiga i elektronikindustrin. IoT-revolutionen och utvecklingen av autonoma bilar driver på säkerhetsutvecklingen och skapar ny teknik och nya företag.

Som vanligt är det här alldeles utmärkt för elektronikbranschen. Säkerhetsfrågorna kommer att skapa massor av nya jobb och öka lönsamheten för branschen och sådant är alltid bra.

Men visst vore det skönt om somliga undvek åtminstone de värsta dumheterna.

2 Responses to “Svårt att förutse oväntade fel”

  1. Det verkar som Nasdaq inte har geografisk redundans i sitt data system, om så är det inte proffesionell alternativt dum smålt !

  2. Svårt att förutse oväntade fel. Väldigt sant!

    Reservkraft är ett sådant område. Det arrangeras seminarier och kurser där det i detalj diskuteras om aggregatet ska placeras i källaren, i översta våningen eller i separat litet hus. Och mycket annat sådant. Allt utgående från vissa typiska scenarier. Det diskuteras också hur ofta man ska provköra. Och ändå är det väldigt ofta som reservkraften sviker när den behövs. Det sker på sjukhus – ovanligt ofta med tanke på att det inte FÅR ske – och på en mängd andra ställen. E4-bron över Södertälje kanal råkade ut för just detta. Och det berodde på att man ”testat slut” på dieseln men bara i tomgång och när man lastade på så gick det åt mera soppa och då sa det slurp i tanken och stopp igen.

    Seniorerna kanske minns Gröna linjen i Stockholm och de problem man hade på åttiotalet? Det som gjorde ”Signalfel” till ett av de vanligaste orden i nyhetsrapporteringen.
    Där var anledningen till problemen inte de tripplade busscykelövervakade stationsdatorerna eller störningar från strömskenan. Allt detta fungerade mycket bra men var populära objekt för spekulationer. DN hade en egen reporter som skrev mycket om detta.
    Problemet var att de tänger som *borde* användas att klämma skarvhylsor i muffarna för signalkabeln efter linjen var dyra. Någon bestämde att det räckte med en modifierad avbitare (man glödgade käftarna, slipade upp en sexkant och härdade igen) – det viktiga var att det var en sexkant i varje ände av hylsan. Presskraft, flytning och gastät kontakt var det tydligen ingen som brydde sig om.
    Och det var ju oväntat …

    Kanske man skulle hämta ut lite kontanter? Och hugga lite ved till den gamla öppna spisen? Lägga upp ett förråd med konserver? Vatten har vi i sjön – den enda osäkerheten där är om dammen vid utloppet brister. Då får vi kanske 150 m till vatten. I stället för dagens 108 m. Och det får man väl försöka stå ut med.