Popolazioni e campioni

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:Risorsa

Nello studio di un determinato fenomeno della natura ci interessa comprendere le proprietà di una determinata popolazione. Se questa proprietà è descritta da una variabile aleatoria, la popolazione può essere rappresentata dalla distribuzione di una variabile aleatoria.

Nello studio dei fenomeni naturali però incontriamo una grossa limitazione: le popolazioni accomunate da una determinata proprietà sono spesso sterminate, se non infinite. Dunque studiare le proprietà di un insieme infinito risulta poco efficiente. Nella prassi scientifica quindi viene selezionato un sottogruppo della popolazione, detto campione. Affinché lo studio delle proprietà del campione sia utile a comprendere le proprietà della popolazione, esso deve garantire la rappresentatività.

La distribuzione dei valori della variabile aleatoria del campione è detta distribuzione campione e ha a sua volta carattere aleatorio.

L'inferenza statistica è lo strumento che ci permette di stimare le proprietà della popolazione a partire dallo studio del campione.

Quando la dimensione del campione aumenta la distribuzione tende a stabilizzarsi e si adatta sempre più alla forma della popolazione. Questa convergenza ha carattere aleatorio ed è codificata da un insieme di teoremi cui ci si riferisce comunemente come Legge dei Grandi Numeri. Nella sua formulazione debole si scrive:

pA*𝒫(A) per N+

Media e varianza della popolazione

Posizione e dispersione delle popolazioni sono descritte rispettivamente dalla media e dalla varianza. Per una variabile aleatoria discreta k con frequenza di kpk

m=jxjpj, D=j(xjm)2pj.

Per una variabile aleatoria continua x con probability density function f(x)

m=+xf(x)dx, D=+(xm)2f(x)dx.

Media e varianza dei campioni

Posizione e dispersione dei campioni sono invece date dalla media campionaria e dalla varianza campionaria.

m*=jxpj*, D*=j(xm*)2pj*.

Stima dei parametri della popolazione

A questo punto dunque vogliamo usare gli strumenti dell'inferenza statistica per estrarre più informazioni possibili sulla popolazione a partire dal nostro campione limitato.

  • Ipotizziamo la forma di distribuzione della popolazione, ad esempio Gauss, Binomiale o Poisson;
  • verifichiamo la bontà dell'ipotesi con un test statistico;
  • stimiamo quantitativamente i parametri λi della popolazione a partire dai λi* del campione.

Ci concentreremo sull'ultimo punto. Poiché generati da variabili aleatorie, anche i parametri λi* sono variabili aleatorie e possiedono una distribuzione di probabilità. Noi chiediamo che la distribuzione di λ~i, il miglior stimatore di λi, possieda le seguenti proprietà:

  • consistenza: per N grande λ~iλi;
  • correttezza: il valore atteso dello stimatore è il parametro della popolazione λ~i=λi;
  • efficienza: la varianza D[λ~i] è minima.

Criterio di massima verosimiglianza

Un criterio che permette di trovare degli stimatori soddisfacenti si chiama criterio di massima verosimiglianza, e consiste nel massimizzare la funzione verosimiglianza, ovvero la probability density function presa però in funzione dei λi.