500 mil amostras de dados de pós-treinamento multilíngue em 5 idiomas: Francês, Espanhol, Italiano, Alemão e Português. Para abordar a falta de conjuntos de dados de pós-treinamento multilíngues, criámos estas amostras e descobrimos que melhoram o desempenho em benchmarks como Global MMLU, Belebele e Multi-IF.
7,42K