Om AI-modellen te trainen en te finetunen is vaak een grote hoeveelheid GPU-rekenkracht nodig. Een uitdaging daarbij is dat daarvoor dan ook een groot aantal servers met een GPU nodig zijn, die tegelijkertijd bezig zijn om die taak te voltooien. Daarbij is er dus ook sprake van een groot aantal componenten, die stuk voor stuk kunnen disfunctioneren.

Foundry Cloud Platform heeft daar een oplossing voor gevonden. Klanten die een bepaald aantal GPU-instances reserveren, voor een bepaald aantal uur, krijgen gedurende die tijd exact het aantal GPU-instances dat zij gereserveerd hebben. Het bedrijf zorgt ervoor dat wanneer een server niet (meer) functioneert deze automatisch wordt vervangen door een andere server. Klanten hoeven daarom zelf geen overcapaciteit te reserveren om daar zelf in te voorzien.

Het bedrijf stelt daarover in een blogpost:

Developers shouldn’t need to guess how many extra nodes to set aside in a “healing buffer” or think about hardware monitoring and failover, so we automate these standard practices. Through Foundry Cloud Platform, customers can reserve exactly the capacity they need for as little as 3 hours and be confident that they can leverage all of it. We algorithmically maintain pools of healing buffer nodes so that if a reserved node fails, we can often replace it proactively, obviating instance failure challenges.

Deze aanpak is mogelijk door altijd een groot aantal GPU-servers achter de hand te houden, die het in het geval van een defecte server kan inzetten. Die servers zullen echter ook niet stilstaan, maar als spot-instances worden verhuurd aan andere klanten voor prijzen die 12 tot 20 keer lager liggen dan bij andere cloudaanbieders.

Gezien een dergelijke instance op ieder moment kan worden afgesloten om ingezet te worden voor klanten die GPU-capaciteit hebben gereserveerd, is dat minder geschikt voor het trainen van AI-modellen. Het is wel goed om bijvoorbeeld te gebruiken voor inference (gebruik) van AI-modellen en andere taken die horizontaal schaalbaar zijn.