Varianza Tra e Entro Gruppi (ANOVA): Guida Pratica con 6 Esercizi Svolti

Cerca nel sito

Altri risultati..

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
come calcolare varianza tra e entro gruppi

Un team di marketing lancia tre diverse campagne pubblicitarie su tre gruppi di utenti simili. Dopo un mese, la campagna A ha generato un fatturato medio di 100€ per utente, la B di 110€ e la C di 95€. A prima vista, la B sembra la vincitrice. Ma è una differenza reale o solo frutto del caso? Magari all’interno del gruppo B ci sono stati due acquisti anomali che hanno gonfiato la media, mentre gli altri utenti hanno speso poco.

Ecco il dilemma che ogni analista di dati affronta: come distinguere una differenza significativa (il segnale) da una semplice variazione casuale (il rumore)? La risposta si trova in uno degli strumenti più potenti della statistica: la scomposizione della varianza. In questa guida pratica, non ci limiteremo a definire la Varianza Tra e Entro i Gruppi, ma impareremo a calcolarla e, soprattutto, a interpretarla attraverso 6 esercizi progressivi che simulano problemi reali.


Esercizio 1 (Facile): Confronto tra due gruppi piccoli

Testo:

Un agronomo vuole testare l’efficacia di un nuovo fertilizzante. Divide 6 piante simili in due gruppi: al Gruppo A (di controllo) dà acqua normale, al Gruppo B (sperimentale) dà acqua col fertilizzante. Dopo un mese, misura l’altezza in cm:

  • Gruppo A: 18, 20, 22
  • Gruppo B: 23, 25, 27

Calcola la Varianza Totale, la Varianza Entro i Gruppi e la Varianza Tra i Gruppi. Commenta i risultati.

Risoluzione:

Passo 1: Calcolo delle Medie

  • Media Gruppo A (M_A): [math]\displaystyle (18 + 20 + 22) / 3 = 20[/math]
  • Media Gruppo B (M_B): [math]\displaystyle (23 + 25 + 27) / 3 = 25[/math]
  • Media Totale (M_T): [math]\displaystyle (18+20+22+23+25+27) / 6 = 135 / 6 = 22.5[/math]

Passo 2: Varianza Entro i Gruppi (VE)

La VE è la media ponderata delle varianze dei singoli gruppi.

  • Varianza Gruppo A: [math]\displaystyle ((18-20)^2 + (20-20)^2 + (22-20)^2) / 3 = (4+0+4)/3 = 8/3 \approx 2.67[/math]
  • Varianza Gruppo B: [math]\displaystyle ((23-25)^2 + (25-25)^2 + (27-25)^2) / 3 = (4+0+4)/3 = 8/3 \approx 2.67[/math]

VE = [math]\displaystyle (3 \cdot 2.67 + 3 \cdot 2.67) / 6 = (8 + 8) / 6 = 16/6 \approx 2.67[/math]

La VE misura la variabilità all’interno di ciascun gruppo. È bassa perché le piante dello stesso trattamento sono molto simili tra loro.

Passo 3: Varianza Tra i Gruppi (VT)

La VT misura quanto le medie dei gruppi si discostano dalla media totale.

VT = [math]\displaystyle \frac{n_A(M_A – M_T)^2 + n_B(M_B – M_T)^2}{N}[/math]

VT = [math]\displaystyle \frac{3 \cdot (20-22.5)^2 + 3 \cdot (25-22.5)^2}{6} = \frac{3 \cdot (6.25) + 3 \cdot (6.25)}{6} = \frac{18.75 + 18.75}{6} = \frac{37.5}{6} = 6.25[/math]

La VT misura la variabilità tra i gruppi. È alta perché le medie dei due gruppi sono molto diverse (20 vs 25).

Passo 4: Varianza Totale (VTOT) – Verifica

La varianza totale calcolata direttamente deve essere uguale alla somma VE + VT.

VTOT = [math]\displaystyle \frac{(18-22.5)^2 + (20-22.5)^2 + (22-22.5)^2 + (23-22.5)^2 + (25-22.5)^2 + (27-22.5)^2}{6}[/math]

VTOT = [math]\displaystyle (20.25 + 6.25 + 0.25 + 0.25 + 6.25 + 20.25) / 6 = 53.5 / 6 \approx 8.917[/math]

VE + VT = [math]\displaystyle 2.67 + 6.25 = 8.92[/math] (La piccola differenza è dovuta agli arrotondamenti). La proprietà fondamentale [math]\displaystyle VTOT = VE + VT[/math] è rispettata.

💡 Osservazione: La VT (6.25) è molto più alta della VE (2.67). Questo suggerisce che la differenza tra i gruppi (il trattamento col fertilizzante) spiega la maggior parte della variabilità totale dei dati. Il fertilizzante sembra avere un effetto significativo.

Peculiarità e Interesse: Questo esercizio è l’essenza dell’A/B testing. La sua semplicità permette di focalizzarsi sul concetto fondamentale: la variabilità totale dei dati può essere “spiegata” da una componente (il trattamento) e da una componente “residua” (la casualità).

Contesto Applicativo: È il caso base di ogni esperimento scientifico. Un marketer che testa due titoli per un’email, un medico che confronta un farmaco con un placebo, un agronomo che testa un fertilizzante. L’esercizio dimostra in modo lampante che quando l’effetto del trattamento è forte (le medie sono molto diverse), la Varianza Tra Gruppi (il “segnale”) domina sulla Varianza Entro Gruppi (il “rumore”).

Domanda di Riflessione: Quale proprietà fondamentale della scomposizione della varianza abbiamo usato per verificare la correttezza dei nostri calcoli?


Esercizio 2 (Facile/Medio): Tre gruppi con diversa numerosità

Testo:

In un piccolo ufficio, si rileva il numero di clienti gestiti in un’ora da tre dipendenti con diversi livelli di esperienza:

  • Principiante (P): 4, 6 (n=2)
  • Intermedio (I): 6, 7, 8 (n=3)
  • Esperto (E): 9, 10, 11 (n=3)

Calcola VE, VT e VTOT. Quanta della variabilità totale è spiegata dal livello di esperienza?

Risoluzione:

Passo 1: Medie

  • M_P = [math]\displaystyle (4+6)/2 = 5[/math]
  • M_I = [math]\displaystyle (6+7+8)/3 = 7[/math]
  • M_E = [math]\displaystyle (9+10+11)/3 = 10[/math]
  • M_T = [math]\displaystyle (4+6+6+7+8+9+10+11) / 8 = 61 / 8 = 7.625[/math]

Passo 2: Varianza Entro i Gruppi (VE)

  • Var_P = [math]\displaystyle ((4-5)^2 + (6-5)^2)/2 = (1+1)/2 = 1[/math]
  • Var_I = [math]\displaystyle ((6-7)^2 + (7-7)^2 + (8-7)^2)/3 = (1+0+1)/3 = 2/3 \approx 0.67[/math]
  • Var_E = [math]\displaystyle ((9-10)^2 + (10-10)^2 + (11-10)^2)/3 = (1+0+1)/3 = 2/3 \approx 0.67[/math]

VE = [math]\displaystyle (2 \cdot 1 + 3 \cdot 0.67 + 3 \cdot 0.67) / 8 = (2 + 2 + 2) / 8 = 6/8 = 0.75[/math]

Passo 3: Varianza Tra i Gruppi (VT)

VT = [math]\displaystyle \frac{2 \cdot (5-7.625)^2 + 3 \cdot (7-7.625)^2 + 3 \cdot (10-7.625)^2}{8}[/math]

VT = [math]\displaystyle \frac{2 \cdot (6.89) + 3 \cdot (0.39) + 3 \cdot (5.64)}{8} = \frac{13.78 + 1.17 + 16.92}{8} = \frac{31.87}{8} \approx 3.98[/math]

Passo 4: Analisi

VTOT = [math]\displaystyle VE + VT \approx 0.75 + 3.98 = 4.73[/math]

La percentuale di variabilità spiegata dall’esperienza (VT) è [math]\displaystyle (3.98 / 4.73) \cdot 100 \approx 84\%[/math]. Questo è un valore molto alto.

Peculiarità e Interesse: Introduce una condizione realistica: i dati raramente provengono da campioni perfettamente bilanciati. L’esercizio costringe a capire il significato della ponderazione: lo scarto di un gruppo più numeroso “pesa” di più nel calcolo della Varianza Tra, perché è un’informazione più stabile e affidabile.

Studi sul campo, sondaggi, analisi di dati aziendali. Immaginiamo di confrontare la soddisfazione dei clienti di tre filiali di dimensioni diverse. Non si può semplicemente mediare le performance; bisogna pesare i risultati per il numero di clienti di ciascuna filiale. Questo esercizio insegna a non trattare tutti i gruppi allo stesso modo se la loro base dati è differente.

💡 Osservazione: Nonostante la numerosità dei gruppi sia diversa, la formula della VT pondera correttamente gli scarti delle medie per la dimensione del gruppo (n_i). La VE è bassa (i colleghi dello stesso livello sono abbastanza coerenti), mentre la VT è alta (i livelli di esperienza producono performance molto diverse).

Ti potrebbe interessare anche:  Python Verifica d'ipotesi per la media. T di student

Domanda di Riflessione: Perché nella formula della VT moltiplichiamo [math]\displaystyle (M_i – M_T)^2[/math] per [math]\displaystyle n_i[/math] invece di fare una semplice media delle tre quantità?


Esercizio 3 (Medio): Dati in Tabella e Rapporto F

Testo:

Uno psicologo studia il tempo di reazione (in ms) a uno stimolo per tre diverse fasce d’età.

I dati sono:

Giovani (G) Adulti (A) Anziani (N)
205 220 245
210 225 250
195 215 255
200 230 250

a) Calcola VE e VT.

b) Costruisci una tabella ANOVA semplificata con le Devianze (SQE, SQT, SQTRA).

c) Calcola il rapporto F (F = [math]\displaystyle (VT / k-1) / (VE / N-k)[/math]) e interpretalo.

Risoluzione:

Passo 1: Medie e Devianze (Somma dei Quadrati)

  • M_G = [math]\displaystyle (205+210+195+200)/4 = 810/4 = 202.5[/math]
  • M_A = [math]\displaystyle (220+225+215+230)/4 = 890/4 = 222.5[/math]
  • M_N = [math]\displaystyle (245+250+255+250)/4 = 1000/4 = 250[/math]
  • M_T = [math]\displaystyle (810+890+1000)/12 = 2700/12 = 225[/math]

Passo 2: Varianza Entro i Gruppi (VE) e Devianza Entro (SQE)

Calcoliamo prima le devianze (somma dei quadrati) per ogni gruppo, poi le mediamo.

  • SQE_G = [math]\displaystyle (205-202.5)^2 + (210-202.5)^2 + (195-202.5)^2 + (200-202.5)^2 = 156.25[/math]
  • SQE_A = [math]\displaystyle (220-222.5)^2 + (225-222.5)^2 + (215-222.5)^2 + (230-222.5)^2 = 175[/math]
  • SQE_N = [math]\displaystyle (245-250)^2 + (250-250)^2 + (255-250)^2 + (250-250)^2 = 50[/math]

SQE (Totale) = [math]\displaystyle 156.25 + 175 + 50 = 381.25[/math]

VE = [math]\displaystyle SQE / (N – k) = 381.25 / (12 – 3) = 381.25 / 9 \approx 42.36[/math] *(dove k=3 è il numero di gruppi. VE è anche chiamata Media Quadrata Entro – MQE)*

Passo 3: Varianza Tra i Gruppi (VT) e Devianza Tra (SQTRA)

SQTRA = [math]\displaystyle n_G(M_G-M_T)^2 + n_A(M_A-M_T)^2 + n_N(M_N-M_T)^2[/math]

SQTRA = [math]\displaystyle 4 \cdot (202.5-225)^2 + 4 \cdot (222.5-225)^2 + 4 \cdot (250-225)^2[/math]

SQTRA = [math]\displaystyle 4 \cdot (506.25) + 4 \cdot (6.25) + 4 \cdot (625) = 2025 + 25 + 2500 = 4550[/math]

VT = [math]\displaystyle SQTRA / (k – 1) = 4550 / (3 – 1) = 4550 / 2 = 2275[/math]

(VT è anche chiamata Media Quadrata Tra – MQT)

Passo 4: Tabella ANOVA e Rapporto F

Fonte di Variazione Devianza (SQ) g.d.l. (df) Media Quadrata (MQ) Rapporto F
Tra i Gruppi (Model) 4550 2 2275 [math]\displaystyle 2275/42.36 \approx 53.7[/math]
Entro i Gruppi (Error) 381.25 9 42.36
Totale 4931.25 11

Il rapporto F è altissimo (53.7), indicando che la variabilità sistematica tra le fasce d’età (VT) è di gran lunga superiore alla variabilità casuale entro le fasce d’età (VE). L’età è un fattore fortemente significativo.

💡 Osservazione: La Devianza Totale (SQT) è la somma di SQTRA e SQE ([math]\displaystyle 4550 + 381.25 = 4931.25[/math]). I gradi di libertà totali (11) sono la somma dei g.d.l. tra (2) ed entro (9). Il rapporto F è il strumento statistico per testare formalmente l’ipotesi che le medie dei gruppi siano tutte uguali.

Peculiarità e Interesse: Fa il salto di qualità dal calcolo manuale alla struttura formale dell’ANOVA. Introduce i concetti di Devianza (Somma dei Quadrati, SQ), gradi di libertà (g.d.l.) e Medie Quadratiche (MQ). Il calcolo del rapporto F è il culmine, che trasforma due misure di variabilità in un singolo indice per il test di ipotesi.

Questo è ciò che un software statistico (come R, Python, SPSS) produce come output. Saper leggere e costruire una tabella ANOVA è fondamentale per chiunque legga articoli scientifici (in psicologia, medicina, economia) o esegua analisi dati in ambito professionale. Permette di valutare rapidamente se il “modello” (il fattore studiato, es. l’età) è significativo.

Domanda di Riflessione: Perché al denominatore del rapporto F usiamo la Varianza Entro (VE) e non la Varianza Totale (VTOT)?


Esercizio 4 (Medio/Difficile): Dati Aggregati e Problema Inverso

Testo:

Da un rapporto di ricerca, trovi queste informazioni su tre classi che hanno sostenuto un test:

  • Classe 1: n₁=25, Media₁=70, Varianza₁=36
  • Classe 2: n₂=30, Media₂=65, Varianza₂=49
  • Classe 3: n₃=20, Media₃=80, Varianza₃=25

Senza i dati grezzi, riesci a calcolare la Media Totale, la Varianza Entro i Gruppi e la Varianza Tra i Gruppi?

Risoluzione:

Passo 1: Media Totale (M_T)

M_T = [math]\displaystyle (n_1 M_1 + n_2 M_2 + n_3 M_3) / (n_1+n_2+n_3)[/math]

M_T = [math]\displaystyle (25 \cdot 70 + 30 \cdot 65 + 20 \cdot 80) / (25+30+20)[/math]

M_T = [math]\displaystyle (1750 + 1950 + 1600) / 75 = 5300 / 75 \approx 70.67[/math]

Passo 2: Varianza Entro i Gruppi (VE)

La VE è la media ponderata delle varianze già fornite.

VE = [math]\displaystyle (n_1 Var_1 + n_2 Var_2 + n_3 Var_3) / (n_1+n_2+n_3)[/math]

VE = [math]\displaystyle (25 \cdot 36 + 30 \cdot 49 + 20 \cdot 25) / 75[/math]

VE = [math]\displaystyle (900 + 1470 + 500) / 75 = 2870 / 75 \approx 38.27[/math]

Passo 3: Varianza Tra i Gruppi (VT)

La VT si calcola dagli scarti tra le medie dei gruppi e la media totale.

VT = [math]\displaystyle \frac{n_1(M_1 – M_T)^2 + n_2(M_2 – M_T)^2 + n_3(M_3 – M_T)^2}{n_1+n_2+n_3}[/math]

Calcoliamo gli scarti:

  • [math]\displaystyle (70 – 70.67)^2 = (-0.67)^2 \approx 0.45[/math]
  • [math]\displaystyle (65 – 70.67)^2 = (-5.67)^2 \approx 32.15[/math]
  • [math]\displaystyle (80 – 70.67)^2 = (9.33)^2 \approx 87.05[/math]
Ti potrebbe interessare anche:  Test t Appaiato: Quando e Come Usarlo in Python (6 Esercizi)

VT = [math]\displaystyle \frac{25 \cdot 0.45 + 30 \cdot 32.15 + 20 \cdot 87.05}{75} = \frac{11.25 + 964.5 + 1741}{75} = \frac{2716.75}{75} \approx 36.22[/math]

Passo 4: Interpretazione

La varianza totale “nascosta” dei dati è VTOT = [math]\displaystyle VE + VT \approx 38.27 + 36.22 = 74.49[/math]. Quasi la metà di questa variabilità ([math]\displaystyle 36.22/74.49 \approx 49\%[/math]) è dovuta alle differenze tra le classi (forse per un diverso insegnante o preparazione), mentre l’altra metà è variabilità individuale entro ogni classe.

💡 Osservazione: Questo esercizio mostra la potenza della scomposizione della varianza. Anche senza avere tutti i dati originali, ma solo gli indicatori statistici di base di ogni gruppo (media, varianza, numerosità), possiamo ricostruire completamente la struttura della variabilità totale. Questo è molto comune nell’analisi di meta-studi o report.

Peculiarità e Interesse: È un esercizio  che mostra la potenza delle formule. Simula uno scenario molto comune: non si hanno i dati grezzi, ma solo statistiche di riepilogo (medie, varianze, numerosità). L’esercizio dimostra che, anche senza i dati originali, è possibile ricostruire l’intera struttura della varianza.

Meta-analisi (quando si combinano i risultati di più studi scientifici), analisi di report aziendali, business intelligence. Un analista potrebbe ricevere report trimestrali da diversi dipartimenti e, senza avere accesso ai dati di ogni singola vendita, può comunque analizzare se le performance tra i dipartimenti sono significativamente diverse.

Domanda di Riflessione: Se la varianza entro gruppi (VE) fosse stata molto più alta della varianza tra gruppi (VT), quale conclusione avresti potuto trarre sulla differenza tra le classi?


Esercizio 5 (Difficile): Verifica di un’Affermazione

Testo:

Un’azienda afferma che i suoi tre macchinari (X, Y, Z) producono barre di acciaio con la stessa lunghezza target (100 cm). Un campione di produzione fornisce questi risultati (in cm):

  • Macchina X: 99, 100, 101, 102 (n=4)
  • Macchina Y: 98, 99, 100, 101, 102 (n=5)
  • Macchina Z: 97, 98, 99, 100, 101, 102, 103 (n=7)

Verifica, calcolando il rapporto F, se l’affermazione dell’azienda è credibile o se esiste una differenza significativa tra i macchinari.

Risoluzione:

Passo 1: Medie e Media Totale

Tutti i gruppi hanno dati simmetrici attorno a 100, quindi:

  • M_X = M_Y = M_Z = 100
  • M_T = [math]\displaystyle (\text{Tutti i dati da 97 a 103}) / 16[/math]. Anche questa sarà [math]\displaystyle 100[/math].

Passo 2: Varianza Entro i Gruppi (VE) – MQE

Calcoliamo la varianza per ogni macchina (usando la formula per la popolazione, come negli esercizi precedenti).

  • Var_X = [math]\displaystyle ((99-100)^2 + (100-100)^2 + (101-100)^2 + (102-100)^2) / 4 = (1+0+1+4)/4=6/4=1.5[/math]
  • Var_Y = [math]\displaystyle ((98-100)^2 + (99-100)^2 + (100-100)^2 + (101-100)^2 + (102-100)^2) / 5 = (4+1+0+1+4)/5=10/5=2[/math]
  • Var_Z = [math]\displaystyle ((97-100)^2 + (98-100)^2 + \dots + (103-100)^2) / 7[/math]

I dati di Z sono -3, -2, -1, 0, +1, +2, +3. La somma dei quadrati è [math]\displaystyle 9+4+1+0+1+4+9=28[/math]

Var_Z = [math]\displaystyle 28 / 7 = 4[/math]

VE (MQE) = [math]\displaystyle (n_X Var_X + n_Y Var_Y + n_Z Var_Z) / (N – k)[/math]

VE = [math]\displaystyle (4 \cdot 1.5 + 5 \cdot 2 + 7 \cdot 4) / (16 – 3) = (6 + 10 + 28) / 13 = 44 / 13 \approx 3.384[/math]

Passo 3: Varianza Tra i Gruppi (VT) – MQT

Poiché [math]\displaystyle M_X = M_Y = M_Z = M_T = 100[/math], tutti gli scarti [math]\displaystyle (M_i – M_T)[/math] sono zero.

VT (MQT) = [math]\displaystyle [4 \cdot (0)^2 + 5 \cdot (0)^2 + 7 \cdot (0)^2] / (3-1) = 0 / 2 = 0[/math]

Passo 4: Rapporto F e Conclusione

F = [math]\displaystyle MQT / MQE = 0 / 3.384 = 0[/math]

Un rapporto F = 0 significa che non c’è assolutamente nessuna variabilità sistematica tra i macchinari che non sia già spiegata dalla variabilità casuale interna a ciascun macchinario. L’affermazione dell’azienda è perfettamente credibile da un punto di vista statistico. Le medie sono identiche.

💡 Osservazione: Questo è un caso limite molto istruttivo. Mostra che il rapporto F testa specificamente le differenze tra le medie dei gruppi. Anche se la variabilità entro il gruppo Z (Var=4) è più che doppia di quella del gruppo X (Var=1.5), le loro medie sono uguali, quindi il fattore “macchina” non spiega la variabilità totale. La variabilità di Z è tutta “rumore”.

Peculiarità e Interesse: È un caso limite fondamentale per la comprensione. Con medie identiche, la Varianza Tra è zero e F=0. Insegna una lezione cruciale: l’ANOVA testa la differenza tra le medie, non la differenza tra le varianze. Anche se un gruppo è molto più disperso (la macchina Z), se la sua media è uguale alle altre, l’ANOVA non rileverà differenze.

Controllo qualità (Quality Control). Se tre macchinari devono produrre pezzi da 100 cm, l’obiettivo primario è che la media della produzione sia 100. Questo esercizio dimostra che, da questo punto di vista, i macchinari sono uguali. In un secondo momento, si potrebbe voler analizzare la variabilità (la macchina Z è meno precisa), ma questo richiederebbe un altro tipo di test (es. test di Levene per l’omoschedasticità).

Domanda di Riflessione: In questo caso specifico, a cosa è uguale la Varianza Totale (VTOT)? È uguale a VE, a VT, o alla loro somma? Perché?

Esercizio 6 (Molto Difficile): Simulazione di un Esperimento e Interpretazione

Testo:

Uno studente simula al computer i voti di tre esami sostenuti in sessioni diverse (Prima, Seconda, Terza). Ipotizza che nella terza sessione, essendo a settembre, i voti siano mediamente più bassi. Genera questi dati:

  • Sessione 1: 24, 25, 26, 27, 28 (n=5)
  • Sessione 2: 23, 24, 25, 26, 27 (n=5)
  • Sessione 3: 20, 21, 22, 23, 24 (n=5)
Ti potrebbe interessare anche:  Esercizi svolti: Intervalli di confidenza per la media (varianza incognita)

a) Esegui un’analisi della varianza completa (calcola SQTRA, SQE, MQT, MQE, F).

b) La sua ipotesi è confermata? Spiega.

c) Immagina che lo studente aggiunga alla Sessione 3 un voto alto, 30. Senza rifare tutti i calcoli, come cambierebbero APPROSSIMATIVAMENTE VE, VT e F? Aumenterebbero o diminuirebbero? Perché?

Risoluzione (Punti a e b):

Passo 1: Medie

  • M₁ = [math]\displaystyle (24+25+26+27+28)/5 = 26[/math]
  • M₂ = [math]\displaystyle (23+24+25+26+27)/5 = 25[/math]
  • M₃ = [math]\displaystyle (20+21+22+23+24)/5 = 22[/math]
  • M_T = [math]\displaystyle (26+25+22)/3 = 24.33[/math]
  • (Media delle medie, ma va verificata: [math]\displaystyle (130+125+110)/15 = 365/15 \approx 24.33[/math])

Passo 2: Devianze e Varianze

SQTRA = [math]\displaystyle \sum n_i (M_i – M_T)^2[/math]

SQTRA = [math]\displaystyle \begin{aligned} & 5 \cdot (26-24.33)^2 + 5 \cdot (25-24.33)^2 + 5 \cdot (22-24.33)^2 \\ & = 5 \cdot (2.79) + 5 \cdot (0.45) + 5 \cdot (5.43) \\ & = 13.95 + 2.25 + 27.15 = 43.35 \end{aligned}[/math]

MQT = [math]\displaystyle SQTRA / (k-1) = 43.35 / 2 = 21.675[/math]

SQE = [math]\displaystyle \sum \sum (x_{ij} – M_i)^2[/math]. Calcoliamo le varianze di gruppo e moltiplichiamo per [math]\displaystyle n_i[/math] (poiché [math]\displaystyle Var_i = SQE_i / n_i[/math]).

I dati sono progressioni aritmetiche. La varianza di una progressione 24,25,26,27,28 è 2.5.

  • SQE₁ = [math]\displaystyle Var_1 \cdot n_1 = 2.5 \cdot 5 = 12.5[/math]
  • Stesso per Sessione 2 (23-27): [math]\displaystyle SQE_2 = 2.5 \cdot 5 = 12.5[/math]
  • Stesso per Sessione 3 (20-24): [math]\displaystyle SQE_3 = 2.5 \cdot 5 = 12.5[/math]

SQE = [math]\displaystyle 12.5 + 12.5 + 12.5 = 37.5[/math]

MQE = [math]\displaystyle SQE / (N-k) = 37.5 / (15-3) = 37.5 / 12 = 3.125[/math]

F = [math]\displaystyle MQT / MQE = 21.675 / 3.125 \approx 6.94[/math]

Passo 3: Conclusione (Punto b)

Un valore F di 6.94 è piuttosto alto (soprattutto per 2 e 12 gradi di libertà), indicando che le differenze tra le sessioni sono molto maggiori di quanto ci si aspetterebbe per caso. L’ipotesi dello studente è confermata: i voti della terza sessione (M=22) sono significativamente più bassi di quelli della prima (M=26).

Risoluzione (Punto c):

Aggiungere un voto alto (30) alla Sessione 3, che ha media bassa, è un outlier.

VT (o MQT): AUMENTEREBBE. Aggiungere un valore estremo (30) a un gruppo con media bassa (22) ha due effetti. Primo, la media del gruppo 3 aumenta leggermente (da 22 a (110+30)/6 = 23.33). Secondo, anche la media totale aumenta (da 24.33 a (365+30)/16 = 24.69). Lo scarto del Gruppo 3 rispetto alla media totale cambia (23.33 - 24.69 = -1.36), ma cambiano anche gli scarti degli altri due gruppi (26 - 24.69 = 1.31 e 25 - 24.69 = 0.31). L’impatto principale è che si introduce una maggiore eterogeneità tra i gruppi, perché ora il Gruppo 3 non è più compatto e “lontano” dagli altri, ma ha una variabilità interna enorme. L’aumento della variabilità TRA i gruppi (MQT) sarà generalmente modesto rispetto all’esplosione della variabilità ENTRO il gruppo 3 (MQE).

VE (o MQE): AUMENTEREBBE MOLTO. Questo è l’effetto principale. La varianza interna al gruppo 3 esploderebbe perché il dato 30 è molto lontano dalla nuova media del gruppo (circa 23). La SQE del gruppo 3 aumenterebbe notevolmente.

F: DIMINUIREBBE. Il rapporto F è [math]\displaystyle MQT / MQE[/math]. Se MQT aumenta un po’ ma MQE aumenta molto, il valore di F diminuirà drasticamente. L’outlier “confonde” l’analisi, rendendo meno evidente la differenza tra i gruppi perché introduce tantissimo “rumore” (varianza d’errore) all’interno di uno di essi.

💡 Osservazione: Questo esercizio mostra la sensibilità dell’ANOVA agli outlier e alla omogeneità delle varianze entro i gruppi (assunzione di omoschedasticità). Un singolo dato anomalo può alterare completamente il risultato di un test statistico.

Peculiarità e Interesse: È l’esercizio più completo. Non solo richiede un’analisi ANOVA completa, ma introduce il concetto di sensibilità agli outlier. La domanda finale (“cosa succede se aggiungo un 30?”) è una straordinaria palestra di pensiero critico. Costringe a ragionare sull’impatto di un singolo dato anomalo sull’intera analisi.

Questo è il pane quotidiano di un data scientist. I dati del mondo reale sono “sporchi”. Trovare un outlier impone una scelta: è un errore di misurazione da correggere o un evento raro ma genuino da investigare? L’esercizio dimostra come un outlier possa “mascherare” un effetto reale, facendo crollare il rapporto F perché gonfia enormemente la varianza d’errore (MQE). Insegna l’importanza della pulizia dei dati (data cleaning) e dell’analisi di robustezza.

Domanda di Riflessione: Cosa dovrebbe fare lo studente, in un caso del mondo reale, dopo aver trovato un outlier come il voto 30 nella sessione a voti bassi?

Prosegue alla pagina successiva

(221)

PubblicitàPubblicità