GitHub - tommyip/max-gpt-2: GPT-2 implementation in Modular MAX

GPT-2 in Modular MAX

max serve --model openai-community/gpt2 --custom-architectures ../max-gpt-2

GPU: Nvidia RTX 5090

Input prompt: 1st paragraph of lorem ipsum

Prompt processing: 3.7K tok/s

Token generation: 14.9 tok/s

Prompt processing: 30.7K tok/s

Token generation: 250.1 tok/s