500k个多语言后训练数据样本,涵盖5种语言:法语、西班牙语、意大利语、德语和葡萄牙语。 为了解决多语言后训练数据集的缺乏,我们创建了这些样本,并发现它们在Global MMLU、Belebele和Multi-IF等基准测试中提高了性能。
7.41K