back to top

Il down di Cloudflare e la fragilità crescente di Internet

Da leggere

Franz Russo
Franz Russo
Franz Russo, fondatore, nel 2008, del blog InTime, ho collaborato con grandi aziende nazionali e internazionali, come consulente per strategie di comunicazione e come divulgatore. Da sempre impegnato nella comunicazione digitale, cerco di unire sempre una profonda passione per l’innovazione tecnologica a una visione olistica dell’evoluzione dei social media e degli strumenti digitali. Il mio percorso professionale in questo campo, iniziato nel 2007, è stato caratterizzato da un costante impegno nel raccontare e interpretare i cambiamenti nel panorama digitale. Il mio approccio si basa su un mix di analisi strategica, creatività e un profondo impegno per il racconto e la divulgazione.

Il down di Cloudflare ha bloccato gran parte del web, evidenziando ancora una volta la fragilità dell’infrastruttura digitale nell’era dell’intelligenza artificiale e della sua crescente pressione.

Nuovi messaggi di errore 500, pagine bianche e servizi inaccessibili. Non si trattava di un problema locale o di singole piattaforme in difficoltà. Il problema, stavolta, era causato da Cloudflare, l’infrastruttura invisibile che gestisce circa il 20% di tutto il traffico internet mondiale.

Quando in Italia erano circa le 12:20, un’ondata di down ha colpito nello stesso momento X, ChatGPT, Canva, Discord, League of Legends, PayPal, Spotify e centinaia di altri servizi. Per oltre un’ora, una porzione significativa del web è rimasta paralizzata, in quello che si configura come uno dei blackout più estesi degli ultimi mesi.

Un incidente che arriva a meno di un mese dal down di Amazon Web Services del 20 ottobre, e che solleva nuovamente interrogativi urgenti sulla fragilità dell’infrastruttura digitale nell’era dell’intelligenza artificiale.

Cronaca di un blackout annunciato

La prima segnalazione ufficiale è arrivata alle 11:48 UTC sulla pagina Cloudflare Status: “Cloudflare è consapevole di un problema che potrebbe impattare diversi clienti e sta indagando”. Una comunicazione vaga che nascondeva la portata reale del disastro.

Nel giro di pochi minuti, le segnalazioni su Downdetector sono schizzate a oltre 12.000 per la sola piattaforma X. E a quel punto, anche Downdetector stesso, il servizio che monitora i disservizi online, era irraggiungibile perché si appoggia all’infrastruttura Cloudflare.

Gli utenti che cercavano conferme sul blackout si ritrovavano davanti a una schermata bianca con un messaggio surreale. Rendendo quindi impossibile verificare se internet funzionasse, perché il sistema di verifica stesso era offline.

I problemi tecnici erano i soliti ed evidenti, come errori 500 (Internal Server Error) diffusi, loop infiniti nei controlli di sicurezza che verificano se l’utente è umano, dashboard di Cloudflare inaccessibile persino per gli amministratori di sistema che cercavano di capire cosa stesse accadendo.

Anche la stessa pagina di stato del servizio mostrava segni di malfunzionamento, con la formattazione CSS che si sgretolava lasciando solo testo grezzo.

Per comprendere l’ampiezza del blackout, basta guardare l’elenco dei servizi rimasti offline o gravemente rallentati.

Il down di Cloudflare e la fragilità crescente di Internet
Il down di Cloudflare e la fragilità crescente di Internet

Social media e comunicazione: X (ex Twitter) ha registrato picchi di 12.374 segnalazioni su Downdetector, con accessi intermittenti per oltre un’ora. Discord, utilizzato da milioni di gamer e community online, è rimasto inaccessibile.

Intelligenza artificiale e produttività: ChatGPT di OpenAI ha mostrato il messaggio “please unblock challenges.cloudflare.com to proceed”, impedendo l’accesso al chatbot più utilizzato al mondo. Anche Sora, l’applicazione per video brevi di OpenAI, è rimasta offline.

La pagina di stato di OpenAI ha confermato: “un problema con uno dei nostri fornitori di servizi di terze parti”. Canva, la piattaforma di design utilizzata da milioni di professionisti, era completamente irraggiungibile. Persino Claude AI ha sofferto di un’interruzione importante.

Gaming e intrattenimento: League of Legends ha registrato problemi di connessione diffusi. I siti di modelli 3D per la stampa come Printables e Thangs mostravano errori HTTP 500. Letterboxd, il social network per cinefili, era offline.

Finanza e crypto: Coinbase, la principale piattaforma di trading crypto, ha subito interruzioni. BitMEX ha confermato un’interruzione legata ai problemi Cloudflare. Arbiscan, il block explorer di Arbitrum, era inaccessibile. DefiLlama, piattaforma fondamentale per i dati DeFi, mostrava errori intermittenti. PayPal e le app di pagamento hanno registrato problemi.

Servizi quotidiani: Uber e Uber Eats hanno mostrato difficoltà intermittenti con pagamenti e ordini. Persino i chioschi McDonald’s per gli ordini hanno smesso di funzionare in diverse località, come segnalato su Reddit. Spotify ha registrato problemi separati ma contemporanei.

Infrastruttura Web: Siti di informazione, portali aziendali, piattaforme e-commerce. Hardware Upgrade, tra i principali siti tech italiani, era irraggiungibile. The Register, Notebookcheck e Videocardz mostravano errori 500.

La lista è solo parziale. Con oltre 35 milioni di siti web che utilizzano Cloudflare secondo le stime più recenti, l’impatto reale è stato molto più ampio di quanto le singole segnalazioni possano raccontare.

Cos’è Cloudflare e perché un suo problema blocca internet

Per comprendere la portata di questo ennesimo down, serve capire cosa fa realmente Cloudflare e perché la sua posizione nel web moderno è così cruciale.

Cloudflare non è un hosting provider come spesso si tende a credere. È un intermediario intelligente che si frappone tra gli utenti e i server dei siti web. Quando visiti un sito protetto da Cloudflare, la tua richiesta non arriva direttamente al server di destinazione. Infatti, passa prima attraverso la rete globale dell’azienda.

Questo sistema offre vantaggi enormi. Cloudflare distribuisce i contenuti attraverso una Content Delivery Network (CDN) con server in oltre 200 città in più di 100 paesi, rendendo il caricamento delle pagine molto più veloce. Protegge i siti da attacchi DDoS (Distributed Denial of Service), filtrando il traffico malevolo prima che possa raggiungere i server reali. Gestisce in media 81 milioni di richieste HTTP al secondo, secondo i dati ufficiali dell’azienda.

I numeri della concentrazione sono impressionanti. Secondo W3Techs, circa l’80,7% di tutti i siti web che utilizzano una CDN si appoggiano a Cloudflare. In termini di quota di mercato assoluta delle CDN, Cloudflare detiene il 39,24%, seguita da Amazon CloudFront con il 24,22%. Tra i top 10.000 siti più popolari al mondo, il 32,8% utilizza Cloudflare.

Nel 2024, l’azienda ha registrato ricavi per 1,3 miliardi di dollari, con una crescita del 32% anno su anno. Ha 4,1 milioni di clienti totali, di cui 119.206 paganti e 945 grandi aziende che generano ciascuna oltre 100.000 dollari di ricavi annui.

La struttura dei prezzi di Cloudflare spiega in parte questa diffusione: offre un piano gratuito generoso che ha permesso a milioni di piccoli siti di adottare la piattaforma senza costi iniziali. Una strategia che ha creato una dipendenza strutturale difficile da invertire.

Le cause: traffico anomalo e altri da verificare

Alle 13:09 UTC, Cloudflare ha pubblicato l’aggiornamento più significativo: “Il problema è stato identificato e una soluzione è in fase di implementazione”. Ma cosa era successo realmente?

Un portavoce dell’azienda ha dichiarato ai media: “Abbiamo rilevato un picco di traffico insolito verso uno dei servizi Cloudflare a partire dalle 11:20 UTC. Questo ha causato errori per parte del traffico che passa attraverso la rete Cloudflare. Non conosciamo ancora la causa del picco di traffico insolito”.

La comunicazione ufficiale parla di un “picco di traffico insolito” verso uno dei servizi Cloudflare, che ha innescato errori a cascata nel traffico che transitava attraverso la rete. L’azienda ha sottolineato di essere al lavoro per garantire che tutto il traffico venga servito senza errori, rimandando l’analisi delle cause dopo il ripristino del servizio.

Le ipotesi circolate nell’immediatezza hanno considerato diversi scenari. Cloudflare aveva programmato manutenzioni ordinarie in alcuni datacenter. In ogni caso, le manutenzioni programmate di solito prevedono il reindirizzamento del traffico verso altre località, rendendo improbabile che siano state la causa diretta.

Un attacco DDoS coordinato resta una possibilità, anche se Cloudflare è specializzata proprio nella mitigazione di questo tipo di minacce. Solo due mesi prima, l’azienda aveva bloccato un attacco DDoS record da 11,5 Tbps. L’ipotesi di un attacco sufficientemente sofisticato da superare le difese di Cloudflare potrebbe risultare inquietante riguardo alla sicurezza dell’infrastruttura globale.

Alan Woodward, esperto di cybersecurity dell’Università del Surrey, ha commentato: “Un servizio così grande raramente ha un singolo punto di fallimento”, sottolineando come sia improbabile che si tratti di un attacco coordinato ma evidenziando la complessità del sistema.

Un errore di configurazione interna, magari legato al DNS o ai sistemi di routing, è l’ipotesi più probabile secondo molti osservatori tecnici. Un errore di configurazione nei sistemi che traducono i nomi di dominio in indirizzi IP potrebbe spiegare l’effetto a cascata osservato.

Durante i tentativi di rimedio, Cloudflare ha dovuto disabilitare temporaneamente l’accesso WARP a Londra, il servizio simile a una VPN che instrada il traffico attraverso la rete dell’azienda. Una mossa drastica che indica la gravità dei problemi di routing riscontrati.

Il down di Cloudflare e la fragilità crescente di Internet
Il down di Cloudflare e la fragilità crescente di Internet

Il ripristino graduale e lo stato attuale

Circa due ore dopo l’inizio del blackout, Cloudflare ha annunciato progressi significativi: “Abbiamo apportato modifiche che hanno consentito il ripristino di Cloudflare Access e WARP. I livelli di errore per gli utenti di Access e WARP sono tornati ai livelli precedenti all’incidente. Abbiamo riattivato WARP Access a Londra. Stiamo continuando a lavorare per ripristinare altri servizi”.

Il ripristino è avvenuto in modo graduale e geograficamente disomogeneo. Nel Regno Unito, dove i problemi erano particolarmente acuti, il miglioramento è stato evidente da subito. Negli Stati Uniti, con la costa est che si svegliava proprio durante il picco del blackout, le segnalazioni hanno continuato ad aumentare fino alle prime ore del pomeriggio ora locale.

Alle 13:35 UTC, l’azienda ha confermato: “Stiamo continuando a lavorare per ripristinare il servizio per i clienti dei servizi applicativi”, indicando che alcuni servizi richiedevano ancora interventi specifici.

Le azioni Cloudflare hanno reagito immediatamente al blackout, perdendo oltre il 5% nelle contrattazioni pre-mercato, poi il calo si è ridotto al 3,5% con l’avanzare della giornata e il graduale ripristino dei servizi.

Nel pomeriggio italiano, la maggior parte dei servizi risultava nuovamente accessibile, anche se Cloudflare ha avvertito che “i clienti potrebbero continuare a osservare tassi di errore superiori alla norma mentre continuano gli sforzi di ripristino”. Una coda di problemi destinata a persistere mentre gli ingegneri completavano la stabilizzazione completa della rete.

Sfilza di down ora preoccupanti: da AWS a Cloudflare

Questo blackout non è un episodio isolato. Come dicevamo all’inizio, arriva a distanza di poche settimane dal down di Amazon Web Services del 20 ottobre 2025, che aveva paralizzato servizi come Perplexity, Canva, Snapchat, Roblox, Fortnite, Signal, Coinbase e Venmo. In quel caso, un problema DNS nella regione US-EAST-1 in Virginia aveva innescato un effetto domino globale.

Le analogie sono inquietanti. Entrambi gli incidenti hanno coinvolto problemi a livello di infrastruttura di base (DNS e routing), non attacchi esterni o errori applicativi.

Entrambi hanno colpito simultaneamente servizi apparentemente non correlati, rivelando quanto estesa sia la dipendenza da pochi provider. In entrambi i casi, anche i sistemi di monitoraggio degli outage (come Downdetector) sono finiti offline, creando un vuoto informativo paradossale.

La differenza principale riguarda il ruolo che svolgono nell’architettura di internet. AWS fornisce l’infrastruttura cloud sottostante (server, storage, database), mentre Cloudflare gestisce il layer di rete e sicurezza, quella parte posizionata davanti ai siti.

Ma alla fine, il risultato pratico è lo stesso: quando uno dei due giganti cade, una fetta enorme di internet diventa inaccessibile.

I numeri della concentrazione sono allarmanti. Nel cloud computing, come ricordato qui sul questo blog, AWS detiene circa il 30% del mercato globale IaaS, Microsoft Azure il 20% e Google Cloud il 13%. Insieme controllano oltre il 60% dell’infrastruttura cloud mondiale. Sul fronte delle CDN, Cloudflare domina con quasi l’80% dei siti che usano CDN appoggiate alla sua rete.

Questo significa che una manciata di aziende, letteralmente tre o quattro player, gestiscono l’infrastruttura critica di internet. E quando una di queste inciampa, gli effetti si propagano istantaneamente a livello globale.

Perché le interruzioni stanno diventando sempre più frequenti

La domanda che molti si stanno ponendo dopo questo ennesimo blackout è legittima: perché sembra che internet si stia rompendo così spesso? I dati confermano che non è solo una percezione.

Secondo i report di Cisco ThousandEyes, il rapporto tra interruzioni dei Cloud Service Provider (CSP) e quelle degli Internet Service Provider (ISP) è cambiato drasticamente. Nel 2022, le interruzioni erano distribuite 89% ISP e 11% CSP. Nel 2023, il rapporto era 83% a 17%. Nel 2024, la ripartizione è schizzata a 73% ISP e 27% CSP, con un’accelerazione significativa proprio nella prima metà dell’anno.

In termini assoluti, le interruzioni legate alle applicazioni sono aumentate dell’8% nei primi cinque mesi del 2024 rispetto allo stesso periodo del 2023. Ma è la natura di queste interruzioni a raccontare la storia più inquietante: la maggior parte dei blackout maggiori del 2024 è stata causata da errori di configurazione backend o dal fallimento di sistemi automatizzati, non da attacchi esterni o guasti hardware.

Le cause di questa tendenza sono molteplici e interconnesse.

L’esplosione della domanda legata all’IA

Il 2024-2025 rappresenta il momento di massima pressione infrastrutturale mai visto. La spesa per l’infrastruttura cloud è cresciuta del 99,3% anno su anno nel quarto trimestre del 2024, raggiungendo 67 miliardi di dollari. Ma non è crescita ordinaria: è trainata dall’intelligenza artificiale.

La domanda di infrastruttura AI sta crescendo a ritmi tre volte superiori rispetto ai carichi di lavoro tradizionali. Il mercato dell’infrastruttura IA è passato da 26,18 miliardi di dollari nel 2024 a proiezioni di 221,4 miliardi entro il 2034, con una crescita del 23,8% annuo. Microsoft ha annunciato investimenti per 80 miliardi di dollari in CapEx per il 2025, Alphabet 75 miliardi, Amazon 100 miliardi. Tutti concentrati su datacenter AI, chip personalizzati e piattaforme di training.

I carichi computazionali sono aumentati in modo esponenziale. I datacenter che prima gestivano 8-10 kW di potenza ora devono sostenere 17 kW, con picchi fino a 100 kW per i deployment AI più avanzati. Questo richiede sistemi di raffreddamento a immersione liquida e infrastrutture elettriche completamente riprogettate.

Secondo Gartner, entro il 2027 il 40% dei datacenter AI subirà limitazioni operative a causa di carenze energetiche. I datacenter negli Stati Uniti hanno consumato il 4,4% dell’elettricità totale nel 2023, con proiezioni che arrivano al 12% entro il 2028. Il fabbisogno di raffreddamento potrebbe raggiungere 275 miliardi di litri d’acqua all’anno.

La corsa alla scalabilità sacrifica la resilienza

La pressione competitiva per rilasciare nuove funzionalità AI, lanciare nuovi servizi, espandere la capacità, è intensa. I cicli di rilascio si accorciano. L’automazione aumenta. Ma l’automazione introduce nuovi punti di fallimento.

CrowdStrike nel luglio 2024 ha mandato offline 8,5 milioni di dispositivi Windows con un aggiornamento difettoso del Falcon Sensor. Microsoft a novembre 2024 ha causato interruzioni a Outlook per un “cambio di configurazione” che ha generato un’ondata di retry request. Cloudflare nell’aprile 2024 aveva già avuto un blackout causato da un deployment di un nuovo servizio di telemetria che aveva sovraccaricato il control plane di Kubernetes.

Insomma, sistemi sempre più complessi, modifiche sempre più frequenti, testing sempre meno esaustivo rispetto alla scala reale di deployment. Il risultato sono incidenti che solo pochi anni fa sarebbero stati impensabili.

L’invecchiamento dell’architettura sotto stress dell’IA

Molte delle infrastrutture cloud e CDN sono state progettate in un’era pre-AI generativa. I pattern di traffico dell’AI sono diversi: burst intensi di richieste, carichi di inferenza che richiedono bassa latenza, training distribuito che genera traffico inter-datacenter massiccio.

Adattare architetture esistenti a questi nuovi pattern senza riprogettarle da zero crea stress points. I sistemi di routing, i load balancer, le configurazioni di rete sono ottimizzati per carichi tradizionali. Quando l’AI genera “picchi di traffico insolito” come quelli che hanno colpito Cloudflare, i sistemi faticano a gestirli senza degradazione o failure.

La concentrazione amplifica ogni singolo errore

Con il 20% di internet che transita attraverso Cloudflare, con AWS che gestisce il 30% del cloud, con tre hyperscaler che controllano oltre il 60% dell’infrastruttura globale, ogni singolo punto di fallimento diventa un blackout globale.

Se dieci anni fa un errore di configurazione avrebbe impattato qualche migliaio di siti, oggi lo stesso errore può mandare offline milioni di servizi simultaneamente. La scala amplifica l’impatto di ogni problema tecnico in modo non lineare.

E non ci sono segnali che questa tendenza si inverta. Anzi. Con l’AI che continua a crescere, con i carichi che aumentano, con la pressione competitiva che spinge verso deployment sempre più aggressivi, è ragionevole aspettarsi che le interruzioni non solo continueranno, ma potrebbero diventare più frequenti e più gravi.

Questo è il prezzo nascosto dell’infrastruttura centralizzata nell’era dell’intelligenza artificiale. Non è sostenibile tecnicamente, non è sostenibile energeticamente, e come stiamo vedendo con sempre maggiore evidenza, non è sostenibile operativamente.

Le conseguenze economiche e reputazionali

Quantificare il costo esatto di un blackout come quello di Cloudflare, ma alcuni dati aiutano a comprendere l’ordine di grandezza.

Durante il down di AWS di ottobre, le stime hanno calcolato perdite superiori a 75 milioni di dollari all’ora considerando solo i principali servizi impattati. Amazon stessa perde circa 220.000 dollari al minuto quando il suo e-commerce è offline. Applicando parametri simili a Cloudflare, con milioni di siti e servizi offline per oltre due ore, si parla di centinaia di milioni di dollari in perdite aggregate.

I costi diretti includono transazioni e-commerce non completate, abbonamenti SaaS non accessibili, pubblicità non visualizzate, sessioni di gaming interrotte con relativi acquisti in-app saltati. I costi indiretti sono ancora più significativi: interruzioni dei processi aziendali, perdita di produttività, necessità di supporto clienti straordinario, impatto sulle SLA (Service Level Agreement) con i clienti business.

Poi c’è la dimensione reputazionale. Per le aziende che dipendono da Cloudflare, ogni minuto di downtime erode la fiducia degli utenti. Per Cloudflare stessa, un incidente di questa portata solleva domande sulla resilienza dell’infrastruttura proprio mentre l’azienda cerca di espandersi nei servizi enterprise e nell’AI.

Il 17 novembre, un giorno prima del blackout, Cloudflare aveva annunciato l’acquisizione di Replicate, una piattaforma AI che gestisce oltre 50.000 modelli di machine learning. L’obiettivo dichiarato era trasformare Cloudflare Workers in una piattaforma leader per applicazioni AI. Un timing sfortunato che fa riflettere sulla capacità dell’infrastruttura di sostenere carichi crescenti.

L’intelligenza artificiale generativa sta amplificando una forte pressione infrastrutturale. I modelli di IA richiedono elaborazione intensiva, storage massiccio, bassa latenza per applicazioni real-time. Cloudflare gestisce già milioni di richieste per applicazioni AI attraverso i suoi Worker. AWS, Azure e Google Cloud ospitano i principali modelli foundation del settore.

Quando l’infrastruttura che supporta l’IA si blocca, non si fermano solo chatbot e generatori di immagini. Si interrompono sistemi di rilevamento frodi, assistenti virtuali per customer service, sistemi di raccomandazione, automazioni aziendali. La dipendenza diventa sempre più profonda e pervasiva.

Cosa possono fare le aziende (e gli utenti)

Nell’attesa di eventuali framework regolatori, cosa possono fare concretamente le organizzazioni che dipendono da questi servizi?

La prima risposta è diversificazione. Progettare sistemi che possano funzionare con provider alternativi, anche a costo di maggiore complessità. Utilizzare multi-CDN, distribuire applicazioni su cloud diversi, implementare fallback verso infrastrutture on-premise per funzioni critiche.

La seconda è monitoraggio proattivo. Non affidarsi solo ai sistemi di status dei provider, ma implementare controlli indipendenti. Avere registri dettagliati per scenari di disaster recovery che includano esplicitamente i blackout dei provider esterni.

La terza è trasparenza verso i propri utenti. Comunicare chiaramente le dipendenze infrastrutturali, avere piani di comunicazione pre-definiti per gli outage, gestire le aspettative realisticamente.

Per gli utenti finali, la consapevolezza è il primo passo. Comprendere che il web moderno, per quanto appaia solido, poggia su fondamenta più fragili di quanto sembri. Avere piani B per attività critiche: contatti alternativi per comunicazioni urgenti, backup locali di documenti importanti, metodi di pagamento diversificati.

In conclusione, questo nuovo blackout di Cloudflare si aggiunge a una serie di incidenti che stanno mappando i punti di fragilità dell’infrastruttura digitale globale. Dopo AWS a ottobre, dopo il down di CrowdStrike nel luglio 2024 che aveva paralizzato voli e ospedali, dopo le interruzioni di Microsoft Azure, tutto questo inizia ad essere preoccupante. Proprio in relazione a tutto quello che abbiamo visto fin qui.

La concentrazione in pochi hyperscaler ha senso dal punto di vista dell’efficienza e dei costi. Ma ha un prezzo nascosto in termini di resilienza sistemica che paghiamo collettivamente quando questi nodi critici falliscono.

Con 35 milioni di siti che dipendono da Cloudflare, con il 20% del web che transita attraverso la sua rete, con l’intelligenza artificiale che spinge la domanda di infrastruttura a livelli senza precedenti, la domanda non è se ci saranno altri blackout. È quando, e quanto saranno gravi.

La buona notizia è che questi incidenti raramente durano giorni. Il ripristino avviene in termini di ore, a volte, quando va bene, anche in minuti. Ma la cattiva notizia è che la fragilità resta. E in un’epoca in cui la dipendenza dal digitale diventa sempre più totale, ogni blackout è un piccolo collasso che ci ricorda quanto sia precario l’equilibrio su cui poggiamo.

Un guasto in Virginia può fermare il mondo, come abbiamo visto a ottobre. Un picco di traffico anomalo verso Cloudflare può rendere invisibile un quinto di internet, come abbiamo visto oggi. E la prossima volta? Non lo sappiamo. Ma sappiamo che ci sarà una prossima volta.

Perchè alla fine, abbiamo costruito un’infrastruttura digitale straordinariamente potente ed efficiente, ma abbiamo dimenticato di chiederci cosa succede quando si ferma. E continuiamo a scoprirlo sempre nel modo più doloroso possibile.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

Ultimi post

Accordo tra xAI e il Pentagono, Grok entra nei sistemi militari

Il Pentagono ha annunciato un accordo con xAI per integrare Grok nei sistemi di difesa USA. L'IA di Musk avrà accesso diretto ai flussi di contenuti condivisi su X. Le modalità dell'accordo e la stessa possibile integrazione sollevano interrogativi su dati, controllo e trasparenza.

More Articles Like This