Istogrammi

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:Risorsa

L'istogramma è un particolare diagramma cartesiano che ha valori discreti x sulle ascisse e una grandezza sulle ordinate rappresentata dall'altezza di una colonna, che chiamiamo bin. In fisica gli istogrammi ci permettono di studiare i risultati di un esperimento, poiché ci fornisce una indicazione grafica di come siano distribuiti dei conteggi o delle frequenze in funzione dei valori discreti presi in considerazione.

Per costruire un istogramma vi sono delle scelte importanti:

  1. Prima di tutto bisogna decidere N di prove.
  2. Poi bisogna scegliere il binning, ovvero la divisione del dominio della variabile sulle ascisse in intervalli. Definiamo dunque 𝒩 intervalli, dove il j-esimo bin sarà largo Δxj.
  3. Infine dobbiamo conteggiare le occorrenze da associare ai singoli bin.

Vediamo ora un caso particolare che riguarda le prove ripetute.

Misure ripetute

Gli istogrammi sono particolarmente utili quanto vogliamo sintetizzare, ad esempio, i risultati di una prova ripetuta. Supponiamo di eseguire N misure ripetute di una grandezza x costante nel tempo, ciascuna etichettata con un indice i=1,,N. Abbiamo due casi:

  • Le misure cadono all'interno dell'intervallo di risoluzione Δxris: esprimiamo l'incertezza associata alla misura come errore associato alla risoluzione, ovvero δx=δxris=Δxris12.
  • Le misure cadono al di fuori dell'intervallo di risoluzione Δxris: le misure fluttuano a causa dell'effetto di varie sorgenti, ciascuna indipendente dall'altra nella singola misura. Allora la misura è affetta da fluttuazioni casuali, e possiamo quantitativamente esprimere tale incertezza usando le proprietà della distribuzione dei campioni. Per fare ciò studiamo la forma dell'istogramma sperimentale. Il fatto che nelle prove ripetute, sotto certe condizioni, possa prendere parametri statistici campionari come m* e σ* è dovuto al Teorema Centrale del Limite.

Nel secondo caso dunque scegliamo di rappresentare i dati raccolti su un istogramma. Nel caso delle prove ripetute conviene utilizzare come larghezza del bin la risoluzione della misura che stiamo effettuando: Δxj=Δxres. Sulle ordinate possiamo scegliere di rappresentare tre grandezze diverse, a seconda di quali risultati vogliamo evidenziare.

Istogrammi dei conteggi

Istogramma dei conteggi.

Negli istogrammi dei conteggi rappresentiamo il conteggio campionario nj* sulle ordinate. Vale la condizione di normalizzazione:

j=1𝒩nj*=N.

Non possiamo confrontare più istogrammi di questo tipo, a meno che non siano identici il numero totale dei conteggi N e la scelta dei bin Δxj.

Istogrammi normalizzati in altezza

Istogramma normalizzato per altezza.

Negli istogrammi normalizzati in altezza rappresentiamo la frequenza campionaria

pj*:=nj*N

sulle ordinate. Essa è una grandezza adimensionale. Il profilo degli istogrammi rimane invariato rispetto a quelli dei conteggi. Vale la condizione di normalizzazione:

j=1𝒩pj*=j=1𝒩nj*N=1.

Possiamo confrontare istogrammi di questo genere purché la scelta dei bin Δxj sia la stessa.

Istogrammi normalizzati per area

Istogramma normalizzato per area.

La densità campionaria è la frequenza campionaria per unità di Δxj:

fj*:=pj*Δxj=nj*NΔxj.

Essa ha le dimensioni del reciproco di x. Vale la condizione di normalizzazione:

j=1𝒩=fj*Δxj=1,

e questo ci dice che la superficie sottesa dal grafico è unitaria. Possiamo confrontare gli istogrammi normalizzato per area tra di loro, oppure anche con una probability mass function di variabili aleatorie discrete o una probability density function di variabili aleatorie continue.

Scelta del binning

Per rappresentare in modo chiaro ed efficace un risultato sperimentale è di fondamentale importanza scegliere correttamente il binning. Infatti a seconda di tale scelta potremmo avere un istogramma poco definito oppure un istogramma poco significativo.

  • Se l'incertezza relativa sul bin è troppo grande, ovvero è circa unitaria, siamo costretti ad accorparlo al bin adiacente. Perdiamo informazioni rispetto alla tabella dei dati, ma talvolta è necessario fare ciò;
  • se il bin è troppo largo si perdono le caratteristiche della distribuzione;
  • se il bin è troppo stretto abbiamo un'incertezza sulla forma, e dunque abbiamo alcuni bin che ricadono nel primo caso;
  • il buon compromesso è l'istogramma in cui si risolvono i picchi senza avere incertezze sulla forma, e possiamo dimostrare dalle proprietà della distribuzione binomiale che quantitativamente ciò comporta avere un numero di bin 𝒩N, poiché l'incertezza su nj* è σnj*nj* per N grande.

Parametri statistici dell'istogramma

A questo punto l'istogramma ci fornisce delle preziose informazioni. Infatti studiandone la forma possiamo condensare i risultati ottenuti in due soli parametri, uno di posizione e l'altro di dispersione.

Parametro di posizione

La stima migliore e più usata come parametro di posizione di un istogramma è data dalla media campionaria m*, data dalla media aritmetica degli N valori xi.

m*=x*:=1Ni=1Nxi=j=1𝒩=xjpj*.

La seconda espressione della media campionaria, che usa la frequenza, si ricava applicando il fattore 1N ad ogni termine della sommatoria ed impiegando la definizione di frequenza campionaria. Si noti che la sommatoria della seconda espressione è sugli j indice sui bin che vanno a 𝒩 numero di bin, mentre la prima è sulle i indice sulle misure che vanno a N numero totale di misure.

Parametro di dispersione

La dispersione è l'intervallo sulle x nel quale sono distribuite le misure centrate nel suo valore più attendibile. La misura più comune della dispersione viene data dalla deviazione standard campionaria σ*, detta anche scarto quadratico medio campionario. Essa è la radice quadrata della varianza campionaria D*, definita come

(xim*)2=i=1N(xim*)2=j=1𝒩(xjm*)2pj*.

Come misura di dispersione viene impiegata la deviazione standard campionaria σ*=D* poiché ha le stesse dimensioni del valore atteso e quindi possiamo esprimere la misura come un intervallo attorno al valore atteso stesso.