Recenta perturbare globală cauzată de o actualizare defectuoasă a software-ului CrowdStrike a scos la iveală vulnerabilități critice în infrastructura IT din diverse sectoare. Incidentul oferă lecții valoroase pentru directorii IT (CIO) și directorii tehnologici (CTO) despre cum să îmbunătățească reziliența IT și să gestioneze eficient actualizările.
Incidentul: O perturbare globală
Incidentul a început în Australia, unde dispozitivele unor bănci, companii aeriene și posturi TV au afișat „ecranele albastre ale morții” (Blue Screens of Death – BSOD). Problema s-a răspândit rapid în Europa și SUA, afectând operațiunile în diverse industrii, inclusiv în spitale și centre de apeluri de urgență.
Cauza principală a fost o actualizare defectuoasă a software-ului Falcon Sensor de la CrowdStrike, care a dus la prăbușirea și intrarea în buclă de recuperare a dispozitivelor. Fișierul problematic, localizat în %WINDIR%\System32\drivers\CrowdStrike, avea o denumire care începe cu „C-00000291” și terminația „.sys”, cu un timestamp de 2024-07-19 0409 UTC. Acesta a fost ulterior înlocuit cu o versiune corectată, având timestamp-ul 2024-07-19 0527 UTC.
CrowdStrike a confirmat că problema a fost un defect software, nu un atac cibernetic, subliniind că gestionarea necorespunzătoare a actualizărilor poate fi la fel de dăunătoare ca măsurile inadecvate de securitate cibernetică.
Brody Nisbet, directorul CrowdStrike, a publicat pe rețelele de socializare o soluție temporară care implica pornirea dispozitivelor în Safe Mode, ștergerea fișierului problematic și repornirea normală. Incidentul a subliniat necesitatea unor practici robuste de gestionare a proceselor IT pentru a preveni astfel de perturbări.
Șapte strategii pentru CIO pentru a preveni întreruperi IT
Pentru a preveni întreruperi similare în viitor, CIO-ii trebuie să abordeze strategic managementul IT. Iată câteva recomandări:
- Implementarea unui management cuprinzător al actualizărilor
- Testarea riguroasă în faza premergătoare implementării, în diverse medii și configurații.
- Utilizarea mediilor de testare care replică configurațiile de producție și includ testarea automată, manuală și regresivă.
- Reconsiderarea sistemului de actualizări automate.
- Implementarea etapizată
- Implementarea actualizărilor în etape pentru monitorizarea și abordarea problemelor înainte de implementarea la scară largă.
- Proceduri clare de rollback pentru revenirea rapidă la o versiune stabilă.
- Îmbunătățirea monitorizării și răspunsului la incidente
- Utilizarea instrumentelor avansate de monitorizare pentru detectarea imediată a anomaliilor post-implementare.
- Planuri detaliate de răspuns la incidente, cu protocoale clare pentru identificarea, izolarea și rezolvarea problemelor.
- Evitarea punctelor unice de eșec (single points of failure)
- Diversificarea soluțiilor și implementarea mecanismelor de redundanță și failover.
- Adoptarea unei infrastructuri hibride sau multi-cloud.
- Evaluarea continuă a rezilienței infrastructurii și a planurilor de recuperare în caz de dezastru
- Testarea periodică a planurilor de recuperare prin simulări și scenarii variate.
- Colaborarea cu furnizori de încredere.
- Managementul vulnerabilităților
- Implementarea unui proces de management al vulnerabilităților care să includă identificarea, evaluarea, gestionarea, remedierea, verificarea, monitorizarea și raportarea vulnerabilităților.
- Evaluarea și managementul riscului
- Implementarea unui proces de management al riscului care să includă identificarea surselor de amenințări și a evenimentelor care afectează activele, verificarea vulnerabilităților acestora și evaluarea riscului asociat.
Recomandări
Incidentul subliniază importanța implementării unui mecanism de rollback și a unor practici de securitate cibernetică riguroase. Tentativele de phishing pot crește, atacatorii uzurpând identitatea CrowdStrike sau a altor entități de încredere.
CrowdStrike avertizează că atacatorii ar putea distribui malware prin e-mailuri de tip phishing și domenii suspecte recent înregistrate. Este recomandată utilizarea soluțiilor de remediere oferite doar prin canalele oficiale ale furnizorilor de software.
Un alt caz relevant: CVE-2024-22274
Vulnerabilitatea din serverul VMware vCenter, clasificată ca CVE-2024-22274, poate permite unui atacator autentificat cu privilegii administrative să execute cod de la distanță. Aceste incidente subliniază necesitatea implementării unor strategii solide de management al riscului și al vulnerabilităților.
Concluzie
Întreruperea globală recentă și vulnerabilitatea aplicațiilor VMware vCenter subliniază necesitatea gestionării atente a actualizărilor de software și a unei infrastructuri IT reziliente. Adoptarea bunelor practici și colaborarea cu experți pot îmbunătăți reziliența organizațiilor, asigurând continuitatea operațională în situații neprevăzute.
Securitatea cibernetică este o muncă de echipă între mediul public și cel privat. DNSC recomandă adoptarea măsurilor proactive și reactive de securitate cibernetică și raportarea incidentelor și vulnerabilităților pentru a contribui la un spațiu cibernetic național mai sigur.