但@PrimeIntellect的一个优点是提供现货实例——今天我以每小时仅8美元的价格获得了一个8xH200的节点! 我将展示如何快速使用vllm设置moonshotai/Kimi-K2-Instruct推理。 1. 在获得对您的pod的SSH访问权限后(大约等待10分钟),创建您的项目并安装所需的库: apt update && apt install htop tmux uv init uv venv -p 3.12 source .venv/bin/activate export UV_TORCH_BACKEND=auto export HF_HUB_ENABLE_HF_TRANSFER="1" uv pip install vllm blobfile datasets huggingface_hub hf_transfer 之后,打开一个tmux会话。 2. 要开始托管vllm,您只需使用vllm serve: vllm serve moonshotai/Kimi-K2-Instruct --trust-remote-code --dtype bfloat16 --max-model-len 12000 --max-num-seqs 8 --quantization="fp8" --tensor_parallel_size 8 实际的检查点下载很困难,因为即使使用hf_transfer也需要1小时(有人知道更快的解决方案或如何挂载下载的检查点吗?) 3. 然后在新的tmux窗格中安装cloudflare快速隧道并启动它。 install cloudflared cloudflared tunnel --url 基本上就是这样!一个与OpenAI兼容的服务器将在Cloudflare提供的URL上可用,在我的情况下是,并且我只是使用我简单的包装器通过它生成大量合成数据。
38.63K