Flights - Encoding
1. Analyse du dataset
Analyse du Dataset
df = sns.load_dataset('flights')
df.head()
year month passengers 0 1949 Jan 112 1 1949 Feb 118 2 1949 Mar 132 3 1949 Apr 129 4 1949 May 121
1 colonne n'est pas numérique :
- 'month' : Mois de la date du vol. Pas de hiérarchie => nominal encoding
- 'month' : Mois de la date du vol. Pas de hiérarchie => nominal encoding
2. Choix du type d'encodage
Aucune de ces variables n'est hiérarchique => Encodage nominal OneHot
Documentation OneHot Encoder
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
OneHot Encoder - 'Month'
encoder = OneHotEncoder(sparse_output=False, drop='first', handle_unknown='ignore')
encoder.fit(df[['month']])
encoder.transform(df[['month']])
[[0. 0. 0. ... 0. 0. 0.] [0. 0. 1. ... 0. 0. 0.] [0. 0. 0. ... 0. 0. 0.] ... [0. 0. 0. ... 0. 1. 0.] [0. 0. 0. ... 1. 0. 0.] [0. 1. 0. ... 0. 0. 0.]]