Single post
Novembre
2020
Jean-Michel Pou
Presidente fondatore Deltamu
Ripetibilità: quante misurazioni?

La questione del numero di misure necessarie per valutare la ripetibilità è ricorrente nel mondo della metrologia. A volte è difficile darsi una risposta, perchè in letteratura ci sono molte opzioni su questo tema.
Tuttavia la scienza statistica ci offre strumenti molto semplici per rispondere a questa domanda, sia nel caso di una valutazione di ripetibilità, ad esempio per ottenere un accreditamento, sia durante le operazioni di taratura in quanto non è ovviamente possibile ripetere molte misurazioni per ogni punto, perchè troppo costoso. Prima di scoprire questi strumenti, riprendiamo brevemente il concetto fondamentale di stimatore.

Perchè parliamo di stimatore?

Tutti i fenomeni aleatori che inontriamo non sono sistematicamente di tipo gaussiano. Ne esistono di tutte le forme, alcune delle quali possono essere descritte dau una legge matematica (parliamo quindi di leggi teoriche, ad esempio la distribuzione normale), altre mediante un istogramma (parliamo dunque di leggi empiriche).

Conosciamo bene la distribuzione normale e le sue proprietà perchè capita frequentemente di imbattersi in fenomeni la cui legge di probabilità assomiglia a questo tipo di distribuzione teorica. Gli esperti di statistica dimostrano in effetti che quando dei fenomeni indipendenti si mescolano, e purchè nessuno di questi abbia un peso superiore al 30% sulla varianza totale, il fenomeno risultante tende verso una distribuzione normale.

In tal caso, 2 parametri sono sufficienti per descrivere la probabilità che si verifichi un possibile valore del fenomeno risultante: il valore atteso (media) e lo scarto quadratico medio. Alcune leggi di probabilità teoriche sono, quanto a loro, sono descritte da più di due parametri.

Se tutto questo è teoricamente semplice, le cose si complicano con la pratica. In effetti, conoscere il vero valore atteso e il vero scarto quadratico medio di una distribuzione, che sia questa normale o meno, è impossibile se non si dispone di un’infinità di realizzazioni del fenomeno, infinità ovviamente inaccessibile…

Se questi parametri restano sconosciuti nel mondo reale (e dobbiamo farcene una ragione!); è sempre possibile di simulare un “mondo reale” e di mettersi nei panni dello sperimentatore per osservare cosa è in grado di fare per “indovinare” la realtà grazie alle sue osservazioni.

Immaginiamo un fenomeno gaussiano, con valore atteso pari a0 e scarto quadratico medio pari a 1. Supponiamo inoltre che un osservatore disponga d’un gran numero di campioni (2 000 in questo esempio), ottenuti mediante simulazione numerica e con componenti che vanno da 2 a 50. Per ciascun campione, è dunque possibile  calcolare la media (stimatore del valore atteso) e lo scarto quadratico medio.

Nota : In questo articolo ci interessa solamente quello che succede allo scarto quadratico medio, dato che la tematica in questione è la ripetibilità.

L’immagine qui sotto fornisce degli esempi di risultati numerici per il calcolo dello scarto quadratico medio su serie simulate e un grafico dei risultati ottenuti su 2000 stime.

Figura 1: Stima di scarti quadratici medi

Questi risultati evidenziano il significato del concetto di “stimatore”. Se fosse possibile calcolare per ogni campione la vera deviazione standard, avremmo ottenuto, per ciascuno dei 2 000 campioni, lo stesso valore pari a 1. In realtà, ogni campione, frutto del caso in quanto prodotto da una simulazione numerica, conduce a valori diversi per la deviazione standard, valori che tendono ovviamente verso il valore vero (cioè 1), ma che non gli sono sistematicamente uguali.  Bisogna quindi rassegnarsi a non poter mai disporre dello scarto quadratico medio vero e a doversi accontentare di una stima di tale valore, stima che risulta tanto più attendibile quanto maggiore è la dimensione del campione.

La figura 2 qui sotto è strutturata come segue. Calcoliamo le 2000 stime dello scarto quadratico medio vengono calcolate per dimensioni del campione comprese tra 2 e 50, quindi vengono calcolate le medie delle 2000 stime di scarto quadratico medio per ciascuno dei componenti.

Tracciando la media delle stime delle deviazioni standard rispetto alla dimensione del campione (doppia linea), è chiaro che queste medie sottostimano il valore vero. Indicando sullo stesso grafico un intervallo che rappresenta la dispersione delle 2000 stime per l’insieme dei componenti, constatiamo che questa diminuisce quando i componenti aumentano.

La curva tratteggiata in rosso rappresenta il rapporto”R” fra il valore vero della deviazione standard (1) e la media delle stime :

R = Valore vero / Valore medio <=> Valore vero = R x Valore medio

R caratterizza il “bias di deviazione standard”. Gli statistici mostrano che questo bias R è uguale a :

Il lettore noterà la sovrapposizione quasi perfetta del valore sperimentale di R (tlinea tratteggiata) e del valore teorico (linea nera). Comprendiamo quindi, e ci sarà utile in seguito, che se disponiamo di un numero elevato di campioni di una data dimensione, è possibile il passaggio dalla media degli scarti quadratici medi dei campioni al valore vero della popolazione madre, su condizione che tutti i campioni provengano da una popolazione deviazione standard costante…

Figura 2: Qualità della stima dello scarto quadratico medio

L’immagine 2 permette inoltre di rispondere all’interrogativo riguardante il numero di misure che bisogna effettuare per valutare in modo corretto lo scarto quadratico medio della ripetibilità. Notare che il bias diventa insignificante con più di 25/30 valori (il lettore potrà fare i calcoli utilizzando la formula di R). La dispersione (le barre d’incertezza) diminuisce rapidamente all’inizio per poi non cambiare in modo significativo a partire dalle misure 25/30. Ecco dunque una giustificazione valida per ritenere il numero di 25/30 misure per effettuare una valutazione pertinente (ma vedremo in seguito che possiamo fare molto meglio, con molto meno…).

Piccola nota sulla varianza …

Per gli stessi dati, possiamo tracciare la varianza media (scarto quadratico medio al quadrato), piuttosto che lo scarto quadratico medio. Otterremo allora l’immagine 3 :

Figura 3: Qualità della stima di una varianza

Constatiamo che, contrariamente allo scarto quadratico medio, la varianza è uno stimatore non deviato della varianza vera (che vale 1 qui anche : 12 = 1). Bisogna comprendere questa proprietà.

Nel calcolo dell’incertezza, si addizionano les varianze, anche se stimate, inizialmente, degli scarti quadratici medi, seguendo un metodo di tipo A o un metodo di tipo B. Nel caso di una valutazione di Tipo A (ad esempio la ripetibilità), e dato che sappiamo che eleveremo al quadrato lo scarto quadratico medio ottenuto per avere la varianza, non bisogna assolutamente applicare correzioni per il bias perchè questo porterebbe di fatto ad una conseguente possibile sovrastima della varianza!

25/30 misure per punto ? Impossible per tutte le tarature …

2, 3 o 5 misure non ci permetteranno mai di conoscere il vero scarto quadratico medio (Cfr Figura 1). Tuttavia, gli statistici hanno messo a punto la teoria dei test e sono proprio questi test che possono permetterci di trovare una soluzione accettabile al problema posto dalla questione degli stimatori.

Se il laboratorio puo’ (anzi, deve!) dedicare tempo e energia alla corretta valutazione della sua ripetibilità, ovviamente non puo’ ricominciare da capo ad ogni taratura, cosa che sarebbe tra l’altro inutile. Infatti, è sufficente verificare se la serie corrente, indipendentemente dal fatto che il suo numero sia uguale a 2,3 o n, possa o meno provenire da una popolazione madre dello scarto quadratico medio conosciuto, cioè lo scarto quadratico medio di ripetibilità attentamente studiato. In altre parole, la dispersione che osserviamo su un piccolo campione rappresentato dalle mie misurazioni, conferma o invalida la ripetibilità nota?

Questo test è molto semplice da implementare. Si tratta del test di Fisher Snédécor. Basta calcolare il rapporto fra il quadrato dello stimatore della deviazione standard del campione e la varianza della ripetibilità (prendendo il più grande dei due come nominatore) e confrontare questo rapporto con il valore critico di Fisher:

n1 reppresenta il numero di valori che hanno permesso di calcolare la varianza del numeratore (ripetibilità o serie in corso, il più grande dei due) e n2 quella del denominatore.

Non è possibile sviluppare in questo articolo la teoria dei test statistici ma possiamo verificare mediante simulazione numerica che il test funzioni effettivamente.

Nota : Il valore critico è stato calcolato per un numero di gradi di libertà uguale a 10 000 (rappresentante l’infinito) per la varianza vera (cioè 1).

Tabella 1 : Implementazione del test di Fisher

Per un livello di confidenza bilaterale del 95%, e quando attraverso la simulazione tutti i campioni hanno la stessa varianza vera, il test rileva il 5% di serie che sembrano confutare lo scarto quadratico medio della ripetibilità. Cio’ è normale e inevitabile, alcune conclusioni del test saranno sbagliate ma ci aiutano comunque a prendere delle decisioni in modo pertinente secondo la situazione:

Situazione 1 : Il test rileva un valore più piccolo rispetto a quello atteso (casi delle serie 2 e 5). Niente di allarmante in questo caso dato che la ripetibilità è apparentemente maggiore di quella della serie, l’incertezza non viene dunque influenzata.

Situazione 2 : Il test rileva un valore maggiore rispetto a quello atteso. Questo caso puo’ verificarsi:

  • In caso di errore di inserimento dei valori disponibili. In tal caso basta semplicemente correggere il valore errato;
  • In caso di un problema di affidabilità dello strumento in fase di taratura (la sua variabilità intrinseca causa più dispersione delle misure rispetto alla situazione abituale per questo tipo di strumento, un tipo per il quale è stata studiata la ripetibilità). In questo caso, per confermare o negare, è sufficiente ripetere la serie di misure sui punti di taratura interessati. Ci troveremo quindi potenzialmente di fronte ancora a due casi:
    • Il test rileva di nuovo una varianza più grande: lo strumento ha quindi buone possibilità di presentare un problema di affidabilità che bisognerà affrontare caso per caso.  È poco probabile (ma non impossibile) che il caso produca 2 volte di seguito una stessa serie rilevata senza un vero problema sullo strumento.
    • Il test non rileva la nuova serie come diversa dalla ripetibilità e ci troviamo quindi nella situazione di un test iniziale il cui risultato è stato sostanzialmente inutile, a causa del livello di confidenza del test (caso dei “Differenti” – che non lo sono in realtà – Tabella 1)

E per finire

Dal momento in cui tutte le sue proprietà sono state ben comprese, si puo’ allora andare ancora più lontano utilizzando i dati prodotti durante le tarature per stimare in modo pertinente gli effetti della ripetibilità. Ogni punto di taratura, se si hanno almeno due ripetizioni, mette in gioco la ripetibilità del laboratorio. Tutto questo articolo si basa sulla simulazione numerica, il laboratorio fa esattamente la stessa cosa, ma nel mondo reale…accumulando delle informazioni su molte serie di 2,3 o n misure quotidianamente, il laboratorio dispone d’informazioni che gli permettono di conoscere la propria ripetibilità in modo molto più pertinente piuttosto che facendo periodicamente 15 o 30 misure.

Figura 4: Convergenza degli stimatori della deviazione standard corretta al valore reale

La figura 4 mostra che sfruttando le serie disponibili durante le tarature, e tenendo conto solamente quelle che non sono state identificate come possibilmente differenti rispetto alla ripetibilità, è possibile utilizzare la media di tutte le stime degli scarti quadratici medi delle serie e, correggendola del fattore R visto precedentemente, di convergere verso il valore vero della ripetibilità. Possiamo anche utilizzare le varianze evitando di porsi il problema del bias.

In realtà in un laboratorio capita spesso d’accumulare 200, 300, 500 serie o più e questa accumulazione, quando utilizziamo la statistica in modo pertinente, permette di conoscere qualcosa di più rispetto ai fastidiosi studi di ripetibilità. E se volete provare con i vostri dati, non aspettate le prossime 300 serie, ma recuperate piuttosto quelle passate 😉 !

Il ragionamento statistico potrebbe portarci molto oltre…Ad esempio, usando i nomi degli operatori di ogni serie, possiamo praticare una ANOVA (analisi della varianza), che potrebbe indicarci che gli operatori sono “sotto controllo”, o identificare un operatore le cui dispersioni sono maggiori di quelle dei suoi colleghi. L’ANOVA potrebbe inoltre interessarsi ai giorni della settimana (hanno un’influenza sui risultati?) o agli effetti ambientali (a condizione che le misurazioni siano registrate e siano disponibili letture di temperatura, pressione, umidità anche registrate…).

Possiamo anche rilevare degli errori di misurazione, indipendentemente dal fatto chr provengano dai campioni di riferimento, gli operatori o le condizioni ambientali. I laboratori di taratura hanno una possibilità dal punto di vista statistico. Hanno sottomano tutti i giorni degli strumenti provenienti da costruttori differenti. Questi costruttori cercano tutti (si spera) di realizzare strumenti “perfetti”, cioè senza errori. Anche se non possono ovviamente riuscirci sempre, sembra molto probabile che in media, ci riescano. In altre parole, lo strumento “medio” di tutti gli strumenti non esiste ma la media degli errori misurati sugli strumenti esiste in laboratorio e dovrebbe teoricamente tendere verso lo 0. Ecco quindi che questa media puo’ essere presentata come un campione di riferimento e con un tale standard sempre disponibile, è possibile fare tante cose molto appassionanti : deriva degli standard del laboratorio, correzione di eventuali distorsioni, valutazione delle distorsioni causate dagli operatori…

La statistica è il cuore del mestiere del metrologo, quest’ultimo dovrebbe convincersene e investire in questo campo. Sapendo che tutti questi calcoli talvolta fastidiosi possono essere realizzati automaticamente grazie alle tecnologie informatiche di cui disponiamo, la conoscenza della statistica non dovrebbe apportare al metrologo altro che delle belle sorprese. Provate per vedere e ne sarete presto convinti/e!

 

 

 

 

Share this article !

0
theme by teslathemes