Blue Screen of Death – en alvorlig solskoldning

Læsetid i minutter: 4

Picture of Martin Kofoed Høding Martin Kofoed Høding 13-08-2024

Cyber Security

Skrevet d. 13-08-2024 af Martin Kofoed Høding

Sommerferien er så småt gået på hæld. De fleste er nu tilbage ved skærmene og i gang med at komme bunken af e-mails igennem. Men hvad er det vi (når det kommer til IT) taler om ved kaffemaskinerne? Eller – hvad burde vi tale om?

Leverandørernes betydning

Supply Chain eller tredjeparts leverandørstyring er blevet et tiltagende buzzword de senere år. Vi har oplevet det i forbindelse med COVID-19-pandemien. Vi har set det i forbindelse med blokering af Suez-kanalen. Og vi har set det, når IT-hosting-leverandører bliver ramt af ransomware-angreb.

I denne sommer så vi det, da den større amerikansk techvirksomhed CrowdStrike sendte en dårlig opdatering til sine mange millioner kunder i omløb, der fik Windows-systemer i hobetal til at bryde ned verden over.

Blå skærm af død

CrowdStrike-nedbruddet er blevet kaldt det største IT-nedbrud i historien. Det skete fredag den 19. juli i uge 29 – midt i sommerferien. Denne dag var det ikke sommersolen, der gav IT-folk over hele verden sved på panden.

Det var i stedet Windows pc’er og servere, som verden over begyndte at gå i et loop, som til sidst endte med en foruroligende blå skærm med meddelelsen: ”dit system har fået en uoprettelig fejl”.

Nedbruddet førte til massevis af forsinkelser og aflysninger i lufthavne verden over. Operationer på mange hospitaler, der måtte udsættes og aflyses. Og helt overordnet en følelse af panik. For hvad skete der lige?

En kernenedsmeltning

Der findes allerede et utal af tekniske beskrivelser og analyser af hændelsen, der i detaljer beskriver den tekniske baggrund for, at hændelsen indtraf.

Kort fortalt indeholdt en opdatering til CrowdStrike Falcon-agenten en fejl, der først alt for sent i processen blev opdaget. Og værre var, at opdateringen blev automatisk udsendt til de mange millioner af systemer, der anvender agenten.

Automatiske udsendelser er normal procedure og er gjort massevis af gange før, uden det har medført fejl. Men denne gang gik det galt.

Havde opdateringen været håndteret bedst muligt ved at den manuelt skal installeres, og systemet genstartes for at have effekt, havde vi stadig set fejl og nedbrud men i væsentlig mindre omfang. Men det var ikke tilfældet med denne opdatering.

En yderligere udfordring til hele miseren er, at CrowdStrike Falcon-agenten opererer i Windows Kernel Process Mode. Altså det inderste af det inderste i operativsystemet. Fejl i den inderste kerne er ikke godt for noget IT-system.

Konsekvenserne var til at tage og føle på

Nå ja, tænker du måske. CrowdStrike er en sikkerhedsleverandør. En techgigant. Men dem er der jo så mange af. Så hvor slemt var det lige?

En sikkerhedsløsning som CrowdStrike Falcon, er en såkaldt Endpoint Detection & Response-løsning, der som udgangspunkt er installeret på alle virksomhedens enheder. Derfor havde det en massiv påvirkning på de organisationer, der uheldigvis anvendte løsningen.

Analyser viser, at omkring 8,5 millioner systemer verden over blev påvirket, og i særdeleshed flere internationale lufthavne og flyselskaber blev ramt – hvilket tidspunktet taget i betragtning var ekstra uheldigt. Den omfattende anvendelse kombineret med en travl ferieperiode var et ekstra dårligt match.

Skal techgiganterne undgås?

Et emne der i dagene og ugerne efter hændelsen blev italesat fra flere kanter, var den koncentrationsrisiko, der er forbundet med anvendelsen af de såkaldte ”techgiganter”.

Virksomheder som f.eks. CrowdStrike, Cisco og Microsoft, der sidder på en markant markedsandel.

For hvad sker der, hvis Microsoft har et globalt, verdensomspændende nedbrud? Hvis Ciscos netværksudstyr blokerer al trafik? Eller hvis en sikkerhedsløsning som CrowdStrike går i loop og får systemerne til at bryde sammen?

Konsekvenserne i juli var synlige og store, især for ferierejsende i diverse lufthavne, der så den ene blå skærm efter den anden i afgangshallerne.

Men hvad kan og bør vi tage ved lære af i denne form for hændelser? Bør vi undgå at anvende techgiganterne, eller bør vi stille bedre krav til leverandørerne og til os selv?

Den gordiske knude

Der er nok ingen tvivl om, at der i juli var en række virksomheder, ferierejsende, patienter, pårørende og ansatte på hospitaler med flere, der ville ønske CrowdStrike hen hvor solen aldrig skinner.

På en lignende måde, dog i noget mindre målestok, oplevede vi i foråret en dansk IT-hosting virksomhed på Fyn, der efter et ransomware-angreb måtte dreje nøglen om. Det betød, at deres kunder var efterladt til dem selv, og måtte betale en konsulentvirksomhed for at få hjælp til at trække kundernes data ud.

Det kunne være nemt at løfte pegefingeren og sige ”vælg din kritiske IT-leverandør med større omtanke”. Den fynske IT-hosting virksomhed havde nemlig kun en håndfuld ansatte.

For er en mindre virksomhed rustet til store cyberangreb eller andre former for hændelser og nedbrud?

Men hvis alternativet var en techgigant som Microsoft, kunne det samme så ikke også ske her? Det var jo det, vi så med CrowdStrike.

Der findes ikke et enkelt svar til spørgsmålet. Det er lidt som en gordisk knude. Vi vil gerne have techgiganternes effektivitet, deres erfaring bygget på massive mængder af data og deres adgang til de dygtigste kompetencer i markedet. Og deres hastighed til at ændre fejl. CrowdStrike var hurtige til at fixe det. Men samtidig var det mange millioner systemer – og dermed store virksomheder – der blev ramt.

Løsningen er risikoanalyse, forberedelse og træning

Løsningen er ikke ligetil. Og så alligevel. Som virksomhed er du nødt til at træne scenarier som et massivt IT-nedbrud. De kan ikke undgås. Spørgsmålet er blot, hvordan vi som virksomheder og organisationer evner at håndtere dem.

Indtil for få uger siden var det de færreste, der havde tænkt på, at en simpel opdatering kunne medføre et globalt IT-nedbrud. Sandsynligheden var vurderet lav, konsekvensen var høj.

Ved de kommende runder af risikovurdering bør du nok genoverveje den vurdering, særligt i forhold til sandsynligheden, når vi nu har set og mærket konsekvenserne. Når du så har gennemført disse vurderinger, kan du så overveje, om det er de rette leverandører, eller om du måske skal kigge andre veje.

Og så skal du træne det! Træne hvad du gør, hvis alle Windows PC’er og servere pludselig går ned en fredag morgen. Hvem ringer du til? Hvad er alternativerne i de timer eller dage, hvor nedbruddet påvirker? Hvordan fortsætter du din forretning?