mais ce qui est génial avec @PrimeIntellect, c'est la disponibilité des instances spot -- aujourd'hui, j'ai obtenu un nœud avec 8xH200 pour seulement 8 $/h ! Je vais montrer comment j'ai rapidement configuré l'inférence moonshotai/Kimi-K2-Instruct en utilisant vllm 1. Après avoir obtenu l'accès SSH à votre pod (attendez environ 10 minutes), créez votre projet et installez les bibliothèques requises : apt update && apt install htop tmux uv init uv venv -p 3.12 source .venv/bin/activate export UV_TORCH_BACKEND=auto export HF_HUB_ENABLE_HF_TRANSFER="1" uv pip install vllm blobfile datasets huggingface_hub hf_transfer Après cela, ouvrez une session tmux 2. Pour commencer à héberger vllm, il vous suffit d'utiliser vllm serve : vllm serve moonshotai/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --max-model-len 12000 --max-num-seqs 8 --quantization="fp8" --tensor_parallel_size 8 Le téléchargement du point de contrôle réel est difficile, car même avec hf_transfer, cela prendra 1 heure (quelqu'un connaît une solution plus rapide ou un moyen de monter le point de contrôle téléchargé d'une manière ou d'une autre ?) 3. Ensuite, dans un nouveau panneau tmux, installez le tunnel rapide de Cloudflare et démarrez-le install cloudflared cloudflared tunnel --url C'est à peu près tout ! Un serveur compatible OpenAI sera disponible à l'URL fournie par Cloudflare, dans mon cas c'est et j'utilise simplement mon wrapper simple sur le client openai pour générer beaucoup de données synthétiques à travers cela.
38,64K