Anscombe - Analyze

1. Analysez la relation entre x et y.
2. Analysez maintenant les statistiques de chaque 'dataset'. Que constatez-vous ?



1. Analysez la relation entre x et y.

df.info()


df.nunique()

dataset     4
x          12
y          43
dtype: int64

df.head()

  dataset     x     y
0       I  10.0  8.04
1       I   8.0  6.95
2       I  13.0  7.58
3       I   9.0  8.81
4       I  11.0  8.33

Variables discrète: 'dataset'
Variables continues: 'x' et 'y'

sns.scatterplot(data=df, x='x', y='y')

Liste des datasets
df['dataset'].unique()

['I' 'II' 'III' 'IV']

df['dataset'].value_counts()

dataset
I      11
II     11
III    11
IV     11
Name: count, dtype: int64

sns.scatterplot(data=df, x='x', y='y', hue='dataset')

sns.relplot(data=df, x='x', y='y', col='dataset')




2. Analysez maintenant les statistiques de chaque 'dataset'. Que constatez-vous ?

Statistiques par dataset
df.groupby('dataset').describe

            x                           ...     y                          
        count mean       std  min  25%  ...   min    25%   50%   75%    max
dataset                                 ...                                
I        11.0  9.0  3.316625  4.0  6.5  ...  4.26  6.315  7.58  8.57  10.84
II       11.0  9.0  3.316625  4.0  6.5  ...  3.10  6.695  8.14  8.95   9.26
III      11.0  9.0  3.316625  4.0  6.5  ...  5.39  6.250  7.11  7.98  12.74
IV       11.0  9.0  3.316625  8.0  8.0  ...  5.25  6.170  7.04  8.19  12.50

[4 rows x 16 columns]

Moyenne de chaque dataset
df.groupby('dataset').mean()

           x         y
dataset               
I        9.0  7.500909
II       9.0  7.500909
III      9.0  7.500000
IV       9.0  7.500909

Variance de chaque dataset
df.groupby('dataset').var()

            x         y
dataset                
I        11.0  4.127269
II       11.0  4.127629
III      11.0  4.122620
IV       11.0  4.123249

Ecart-type de chaque dataset
df.groupby('dataset').std()

                x         y
dataset                    
I        3.316625  2.031568
II       3.316625  2.031657
III      3.316625  2.030424
IV       3.316625  2.030579

→ Sous une seule variable se cachent souvent plusieurs signaux !!!
Les statistiques sont parfois trompeuses. Francis Anscombe (1973) a voulu démontrer que le fait de construire des graphiques était une activité utile et importante.