Cómo transformar datos de código abierto para un entrenamiento NLP