Flights - Encoding

1. Analyse du dataset
2. Choix du type d'encodage



1. Analyse du dataset

Analyse du Dataset
df = sns.load_dataset('flights')
df.head()

   year month  passengers
0  1949   Jan         112
1  1949   Feb         118
2  1949   Mar         132
3  1949   Apr         129
4  1949   May         121

1 colonne n'est pas numérique :
- 'month' : Mois de la date du vol. Pas de hiérarchie => nominal encoding




2. Choix du type d'encodage

Aucune de ces variables n'est hiérarchique => Encodage nominal OneHot

Documentation OneHot Encoder
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

OneHot Encoder - 'Month'
encoder = OneHotEncoder(sparse_output=False, drop='first', handle_unknown='ignore')
encoder.fit(df[['month']])
encoder.transform(df[['month']])

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 1. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]]