Un professore del MIT supera i limiti di calcolo con il cluster più grande mai creato nella cloud pubblica

Utilizzando Google Compute Engine per gestire la banca dati L-Functions and Modular Forms Database (LMFDB), il teorico computazionale e responsabile della ricerca scientifica del MIT Andrew V. Sutherland supera il proprio record personale di elaborazione a elevate prestazioni, raggiungendo i 580.000 core.

Se si assiste a una lezione di filosofia della matematica, è probabile sentire parlare di "oggetti". Gli oggetti sono essenzialmente qualsiasi cosa su cui sia possibile eseguire calcoli, come numeri o funzioni, oppure il risultato di calcoli matematici, come le curve. L-Functions and Modular Forms Database (LMFDB) è un atlante dettagliato degli oggetti e delle loro interconnessioni. Il progetto LMFDB è una collaborazione tra ricercatori di tutto il mondo ed è guidato da un team internazionale che ha sede in università europee e nordamericane, MIT compreso.

La tua visione generale sulla ricerca cambia quando puoi fare domande e ricevere risposte in poche ore anziché in mesi.

Andrew V. Sutherland, teorico computazionale e responsabile della ricerca scientifica, MIT

Condivisione dei dati tra i ricercatori

L'LMFDB fa progredire la scienza semplificando ai ricercatori la condivisione di dati su oggetti con le comunità di fisici, informatici e matematici in tutto il mondo. Alcuni dei calcoli per la creazione di oggetti sono così complessi che solo poche persone sulla Terra sanno come eseguirli. Altri sono talmente grandi che è preferibile eseguirli solo una volta a causa del dispendio di tempo e di denaro che comportano.

Il team responsabile dell'LMFDB aveva bisogno di un servizio cloud in grado di gestire requisiti di archiviazione superiori. Per vedere la situazione in prospettiva, ci sono voluti quasi 1000 anni di tempo macchina per creare gli oggetti all'interno dell'LMFDB. Oltre agli enormi problemi di archiviazione, c'era il problema delle proporzioni: chiunque, infatti, può utilizzare l'LMFDB su lmfdb.org, il che significa che il progetto doveva svilupparsi per supportare le innumerevoli richieste eseguite quotidianamente. Infine, poiché l'LMFDB è collaborativo, il team aveva bisogno di un sistema facilmente gestibile da persone in diversi paesi.

Attenzione sulla ricerca, non sull'infrastruttura

Il team dell'LMFDB ha considerato diverse soluzioni cloud e ha scelto Google Cloud Platform (GCP) per le sue prestazioni elevate, la scalabilità automatica, la facilità d'uso e l'affidabilità.

Uno dei principali ricercatori coinvolti nell'LMFDB e nel processo decisionale è stato Andrew V. Sutherland, titolare della cattedra di matematica, teorico computazionale e responsabile della ricerca scientifica al MIT.

"Noi siamo matematici che si vogliono concentrare sulla ricerca, senza doversi preoccupare di difetti dell'hardware o di problemi di scalabilità del sito web", afferma Sutherland.

Sutherland e il resto del team LMFDB hanno optato per utilizzare Google Compute Engine (GCE) e Google Persistent Disk per l'hosting dei server web e hanno eseguito il mirroring dei database MongoDB per archiviare mezzo terabyte di dati online e tre terabyte di dati a cui si accede meno frequentemente. Questa configurazione permette la scalabilità dell'LMFDB in base alle necessità, nonché la produzione di risultati computazionali e di oggetti matematici in breve tempo quando i ricercatori ne hanno bisogno. L'LMFDB utilizza anche un'ampia gamma di strumenti GCP che permettono ai ricercatori di diverse parti del mondo una gestione più facile e collaborativa del database. Questi strumenti includono Google Stackdriver, Google Cloud Console e Google Cloud Load Balancing.

Sutherland aveva una tabulazione particolarmente complessa da eseguire e archiviare nell'LMFDB: era talmente enorme che richiedeva una potenza di calcolo oltre i limiti di ciò che era stato realizzato in precedenza nella cloud pubblica. Per svolgerla, ha scelto GCE e ha eseguito 580.000 core con VM prerilasciabili, cioè il cluster di computer a elevate prestazioni più grande mai eseguito nella cloud pubblica.

Il calcolo ha dato come risultato 70.000 curve diverse, ognuna con la propria voce nell'LMFDB. Trovare solo una di queste curve è un'operazione estremamente complessa che richiede un numero elevato di cicli di elaborazione. "Equivale a cercare un ago in un pagliaio di quindici dimensioni", spiega Sutherland.

Prima di passare a GCE per eseguire i calcoli, Sutherland aveva eseguito processi sul suo computer a 64 core, che impiegava decisamente troppo tempo. L'unica alternativa era ottenere tempo di calcolo sui cluster del MIT, il che sarebbe stato difficile e avrebbe limitato le configurazioni dei software utilizzabili. Con GCE, può utilizzare tutti i core necessari, installare il sistema operativo corretto, le librerie e le applicazioni che gli servono e aggiornare l'ambiente ogni volta che vuole.

Grazie alla scalabilità che GCP offre all'LMFDB, tutti, dagli studenti fino ai ricercatori esperti, possono eseguire ricerche e navigare con facilità all'interno dei contenuti tramite un'interfaccia web. Ad esempio, Sutherland tiene un corso sulle curve ellittiche e gli studenti utilizzano l'LMFDB per svolgere i compiti.

Abbattere i costi durante l'esecuzione di calcoli enormi

Considerati i limiti di budget di molti ricercatori e istituti scolastici, GCP consente loro di eseguire calcoli massicci a un costo ragionevole. I VM prerilasciabili di GCE che Sutherland utilizza gli permettono di abbattere drasticamente i costi e al contempo di eseguire calcoli estremamente complessi. Queste istanze multifunzione costano fino all'80% in meno rispetto alle normali concorrenti, perché possono essere interrotte da GCE. Interrompere i calcoli non provoca un grande problema di prestazioni: in media, per ciascuna ora di calcoli viene interrotto solo il 2-3% delle istanze e uno script le riavvia in modo automatico fino al completamento del processo, così il tempo perso è pochissimo. Permettendo queste interruzioni di scarsa importanza, Sutherland può eseguire calcoli enormi a basso costo e praticamente senza ritardi.

Stiamo mappando la matematica del XXI secolo

Andrew V. Sutherland, teorico computazionale e responsabile della ricerca scientifica, MIT

Grazie per aver eseguito la registrazione.

Facci conoscere i tuoi interessi.