Hoewel Habana Gaudi van Intel enigszins concurrerende prestaties biedt en wordt geleverd met het Habana SynapseAI-softwarepakket, schiet het nog steeds tekort in vergelijking met de CUDA-compatibele GPU’s van Nvidia. Dit, gecombineerd met beperkte beschikbaarheid, is de reden waarom Gaudi niet zo populair is geweest voor grote taalmodellen (LLM’s) zoals ChatGPT.
Nu de AI-rush aanbreekt, ziet Intel’s Habana bredere implementaties. Amazon Web Services besloot Intel’s 1e generatie Gaudi met PyTorch en DeepSpeed uit te proberen om LLM’s te trainen, en de resultaten waren veelbelovend genoeg om DL1 EC2-instances commercieel aan te bieden.
Het trainen van grote taalmodellen (LLM’s) met miljarden parameters vormt een uitdaging. Ze hebben gespecialiseerde trainingstechnieken nodig, rekening houdend met de geheugenbeperkingen van een enkele versneller en de schaalbaarheid van meerdere versnellers die samenwerken. Onderzoekers van AWS gebruikten DeepSpeed, een open-source deep learning-optimalisatiebibliotheek voor PyTorch, ontworpen om enkele van de LLM-trainingsuitdagingen te verminderen en modelontwikkeling en training te versnellen, en op Intel Habana Gaudi gebaseerde Amazon EC2 DL1-instances voor hun werk. De behaalde resultaten zien er veelbelovend uit.
De onderzoekers bouwden een beheerd rekencluster met behulp van AWS Batch, bestaande uit 16 dl1.24xlarge-instanties, elk met acht Habana Gaudi-versnellers en 32 GB geheugen en een volledig mesh RoCE-netwerk tussen kaarten met een totale bidirectionele interconnect-bandbreedte van elk 700 Gbps. Ook was het cluster uitgerust met vier AWS Elastic Fabric Adapters met in totaal 400 Gbps interconnectie tussen nodes.
Wat de software betreft, gebruikten de onderzoekers DeepSpeed ZeRO1-optimalisaties voor het vooraf trainen van het BERT 1.5B-model met verschillende parameters. Het doel was om de trainingsprestaties en kosteneffectiviteit te optimaliseren. Om modelconvergentie te garanderen, werden hyperparameters aangepast en werd de effectieve batchgrootte per versneller ingesteld op 384, met microbatches van 16 per stap en 24 stappen van gradiëntaccumulatie.
De schaalefficiëntie van Intel HabanaGaudi is over het algemeen relatief hoog en zakt nooit onder de 90%, met acht instances en 64 versnellers die een BERT 340 miljoen model draaien.
Ondertussen, met behulp van Gaudi’s native BF16-ondersteuning, hebben AWS-onderzoekers de vereisten voor geheugengrootte verminderd en de trainingsprestaties verbeterd in vergelijking met de FP32 om BERT 1,5 miljard modellen mogelijk te maken. Ze bereikten een schaalefficiëntie van 82,7% over 128 versnellers met behulp van DeepSpeed ZeRO stage 1-optimalisaties voor een BERT-model met 340 miljoen tot 1,5 miljard parameters.
Over het algemeen ontdekten AWS-onderzoekers dat met behulp van de juiste Habana SynapseAI v1.5/v1.6-software met DeepSpeed en meerdere Habana Gaudi-versnellers een BERT-model met 1,5 miljard parameters binnen 16 uur vooraf kon worden getraind, waardoor convergentie werd bereikt op een netwerk van 128 Gaudi-versnellers, die een schaalefficiëntie van 85% bereiken. De architectuur kan worden geëvalueerd in de AWS Workshop.
Lees hier het volledige artikel.