maar wat geweldig is aan @PrimeIntellect is de beschikbaarheid van spot instances -- vandaag kreeg ik een node met 8xH200 voor slechts $8/uur! Ik zal laten zien hoe ik snel moonshotai/Kimi-K2-Instruct inferentie opzet met vllm 1. Nadat je SSH-toegang tot je pod hebt gekregen (wacht ongeveer 10 minuten), maak je project aan en installeer je de vereiste bibliotheken: apt update && apt install htop tmux uv init uv venv -p 3.12 source .venv/bin/activate export UV_TORCH_BACKEND=auto export HF_HUB_ENABLE_HF_TRANSFER="1" uv pip install vllm blobfile datasets huggingface_hub hf_transfer Daarna open je een tmux-sessie 2. Om vllm te hosten gebruik je eenvoudig vllm serve: vllm serve moonshotai/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --max-model-len 12000 --max-num-seqs 8 --quantization="fp8" --tensor_parallel_size 8 De daadwerkelijke checkpoint-download is moeilijk, want zelfs met hf_transfer zal het 1 uur duren (weet iemand een snellere oplossing of hoe je een gedownload checkpoint op de een of andere manier kunt mounten?) 3. Installeer vervolgens in een nieuw tmux-paneel cloudflare quick tunnel en start het install cloudflared cloudflared tunnel --url Dat is het eigenlijk! Een OpenAI-compatibele server zal beschikbaar zijn op de URL die door Cloudflare wordt gegeven, in mijn geval is het en ik gebruik gewoon mijn eenvoudige wrapper over de openai-client om veel synthetische gegevens te genereren.
38,64K