Prelucrarea statistică
1datelor de măsurare a
Prelucrarea statistică a datelor de măsurare
2
Veridicitatea rezultatelor din stiintele naturii si inginerie
⇒ existenta rezultatelor experimentale Experiment ⇒ Proces de masurare Experiment ⇒ Proces de masurare
Tema experimentala (de masurare):
ce trebuie facut?
St t i i t l (d )
Strategia experimentala (de masurare):
cum trebuie procedat?
Prelucrarea rezultatelor, formularea concluziilor, luarea deciziilor
3
Factori perturbatori ai procesului de masurare
Cauze: - principiul sau metoda de masurare;
- mijloacele de masurare;
- mediul ambiant;
- obiectul supus masurarii;
- interactiunea obiect supus masurarii – mijloc de masurare;
- operator
• Erori grosolane ⇒rezultate aberante (eliminate);
• Erori sistematice ⇒prezinta repetabilitate; partial compensate, partial eliminate;
operator.
Conditii de referinta: temperatura, presiune, umiditate, vibratii etc.
Categorii de erori de masurare
Prelucrarea statistică a datelor de măsurare
m ⇒adevarata valoare a marimii masurate; zi⇒erori aleatoare; xi⇒rezultatele masurarilor xi= m + zi
Erori sistematice ⇒prezinta repetabilitate; partial compensate, partial eliminate;
• Erori aleatoare ⇒aparitie intamplatoare; pot fi diminuate, dar nu eliminate.
Prelucrarea rezultatelor masurarilor se face in conditiile prezentei (cel putin a) erorilor aleatoare de masurare.
Elemente de teoria erorilor
4Repetand de un numar mare de ori(in conditii identice)masurarea unei marimi a carei adevatata valoare este m, se constata ca rezultatele(aleatoare)xiale masurarilor si, implicit, erorile aleatoare de masurarezi, respecta urmatoarele axiome (postulate):
• Principiul cauzal– zimici, mai frecvente ca zimari;
• Principiul limitativ– ziinferioare limitei care cumuleaza toate cauzele de erori;
P i i i l di t ib ti
n m x
n
i i
∑
=−
=
1)
2( σ
)
( −
2∑
nx
ix
deviatie standard deviatie standard
σ2⇔dispersie
• Principiul distributiv– suma algebrica a erorilor tinde la zero;
• Principiul probabilistic– probabilitatea aparitiei unei erori depinde numai de marimea sa.
1
1
= ∑ −
=
s
in
n x x
n i
∑
i=
=1esantion
medie
aritmetica (2/2 2)
2 ) 1 ( )
(
σπ σ
e
zz f z
p = =
−distributie normala s2⇔dispersie empirica
Variabila aleatoare
5STATISTICA ⇒ ramura matematicii aplicate care cuprinde un grup de metode de calcul cu ajutorul carora se pot obtine informatii privind fenomenele de masa.
NOTIUNI DE BAZA: - populatia statistica
(colectivitatea statistica);ti l
( b l i )l t di l ti - esantionul
(proba; selectie)prelevat din populatie.
Populatia
compusa din unitati statistice (indivizi)Populatia
= totalitatea obiectelor calitativ omogene (la care se urmareste o caracteristica)Esantionul
⇒ utilizat la estimarea caracteristicii (proprietatii) populatiei ⇒⇒reprezentativ (tehnica de prelevare) &
Prelucrarea statistică a datelor de măsurare
& volumul esantionului
Valorile caracteristicii
sunt caracterizate prin parametri statistici:
- parametri de grupare (media aritmetica);
- parametri de imprastiere (dispersia)
Populatia ⇒ µ ; σ
2⇒ constante Esantionul ⇒ ; s
2⇒ variabile
6
notiuni elementare de statistica
Valori: x
1,x
2,…,x
n⇒ parametri de grupare si de imprastiere
x1,x2,…,xn ≡valori masurate
Parametru de grupare: media aritmetica
∑
=+ = +
= +
ni i
n
x
n n
x x x x
1 2
1
... 1
Parametri de imprastiere: abaterea standard; dispersia
∑
=− −
− =
− + +
− +
= − n
i i
n x x
n n
x x x
x x s x
1 2 2
2 2 2
1 ( )
1 1 1
) ( ...
) ( ) (
i
s
2Exemplu
Valori:
23,5;
86,3;
45 8;
45,8;
12,4;
32,6;
54,8;
36,7;
62,4;
77,3;
56,8 n = 10
x =
48,86 s = 23,3 s2= 542,89Densitati de repartitie (1)
7Esantion n=100 determinari x
max= 3,50%
x
min= 2,96%
(2,9; 3,0] ⇒n
1=3 (3,0; 3,1] ⇒ n
2=16
HISTOGRAMA FRECVENTELOR
Prelucrarea statistică a datelor de măsurare (3,1; 3,2] ⇒ n
23=33
(3,2; 3,3] ⇒n
4=30 (3,3; 3,4] ⇒ n
5=12 (3,4; 3,5] ⇒n
5=6
8
n→∞
Densitati de repartitie (2)
repartitia de frecventa densitatea de repartitie
n=100 determinari
PROBABILITATEA aparitiei
n →∞
FRECVENTA aparitiei
n finit
9
n=100 determinari
frecventa frecventa cumulata
Densitatea de repartitie f(X) n→∞ Functia de repartitie F(X)
Prelucrarea statistică a datelor de măsurare
F(X)
10
1. Formularea problemei
În vederea efectuării unui studiu privind costurile implementării unui nou procedeu tehnologic, a fost realizată prelucrarea a diferite materiale prin procedeul tehnologic supus analizei. Pentru fiecare material prelucrat, a fost înregistrată productivitatea prelucrăriiQp[mm3/min] (volumul de material îndepărtat în unitatea de timp). Rezultatele măsurărilor sunt precizate în tab.A1.1.
Evaluarea raportului (costuri/performanţe ale procedeului de prelucrare) urmeazăa fi realizatăpe baza unei li t ti ti f t t
Aplicatia 1 – parametri statistici
(1)analize statistice, fapt pentru care se cere:
A. calculul următorilor parametri statistici ai şirului valorilor obţinute în urma măsurării:
media aritmetică;
mediana;
modul;
media geometrică;
dispersia (abaterea medie pătraticăexperimentală);
deviaţia standard;
eroarea standard;
valorile minimă şi maximăprecumşi mărimea intervalului dintre acestea;
valorile corespunzătoarele cuartilelor superioară şi inferioarăprecumşi lungimea intervalului intercuartilic;
valorile asimetrieişi asimetriei standard;
valorile excesuluişi excesului standard;
coeficientul de variaţie (eroarea relativă);
suma tuturor valorilor.
B. reprezentarea graficăa poligonului frecvenţelorşi a histogramei frecvenţelor (atât pentru frecvenţe absolute câtşi relative) şi comentarea rezultatelor obţinute.
Aplicatia 1 – parametri statistici
(2) 11Nr.
crt.
Qp [mm3/
min]
Nr.
crt.
Qp [mm3/
min]
Nr.
crt.
Qp [mm3/
min]
Nr.
crt.
Qp [mm3/
min]
Nr.
crt.
Qp [mm3/m
in]
1 2775 18 4080 35 3940 52 2905 69 2575
2 3365 19 2155 36 1915 53 2490 70 2525
3 3735 20 2230 37 2670 54 2635 71 2735
Tab.A1.1 Valorile măsurate ale productivităţii prelucrării
4 3570 21 2745 38 3900 55 2620 72 2865
5 3530 22 2855 39 3420 56 2725 73 3035
6 3155 23 3245 40 2200 57 2385 74 2125
7 2965 24 2990 41 1800 58 1875 75 2125
8 2720 25 2890 42 2670 59 2215 76 2945
9 3430 26 3265 43 2595 60 2045 77 3015
10 3210 27 3360 44 2700 61 2380 78 2585
11 3380 28 3840 45 2556 62 3415 79 2835
Prelucrarea statistică a datelor de măsurare
12 3070 29 3725 46 2120 63 3725 80 2370
13 3620 30 3955 47 2678 64 3060 81 2950
14 3410 31 3830 48 2870 65 3465 82 2790
15 3425 32 4360 49 3003 66 2605 83 2295
16 3445 33 4054 50 3381 67 2640 84 2625
17 3205 34 3605 51 2800 68 2395 85 2720
12
2. Rezolvare
În vederea efectuării calculelor, rezultatele măsurărilor din tab.A1.1 se notează:
x1, x2, …, xi, …, xn , i = 1,…,85 În urma prelucrării rezultatelor experimentale, se obţin următoarele valori:
251107
∑
n xiAplicatia 1 – parametri statistici
(3)a. Media aritmetică: 2954,2 [mm/min]
85
251107 3
1 = =
=
∑
=
x in
i
b. Mediana: Me= 2870 [mm3/min]
c. Modul: Mo= 2670 [mm3/min]
d. Media geometrică: 2898,77 [mm3/min]
1
1
⎟⎟ =
⎠
⎜⎜ ⎞
⎝
=⎛
∏
= n n
i i
g x
x
e. Dispersia (abaterea medie pătraticăexperimentală): 2 ( )2 328700 [mm3/min]2 1
1 − =
=n
∑
n xi xs 1 1
− i=
n
f. Deviaţia standard (abaterea standard): s= s2=573,323 [mm3/min]
g. Eroarea standard: 62,1857 [mm /min]
85 682 ,
579 = 3
n= s
217666 , ) 0 2 ( ) 1 (
) (
3 1
3
1 =
⋅
−
⋅
−
−
⋅
=
∑
=
s n n
x x n n
i i
γ j. Asimetria:
…………
Aplicatia 1 – parametri statistici
(4) 13Norul de puncte
(exemplu)Histograma frecventelor
(exemplu)Poligonul frecventelor
(exemplu)Poligonul frecventelor cumulate
(exemplu)Prelucrarea statistică a datelor de măsurare
14
Elemente de teoria estimatiilor
x1, x2, …, xn⇒n rezultate ale masurarilor, fara erori grosolane sau sistematice, distributie normala Estimarea adevaratei valori a marimii masurate, m, implica:
- sa se determine o functie f(x1, x2, …, xn)care sa furnizeze o valoare suficient de apropiata de m; - sa se determine un interval (f-e1; f+e2),care cu o probabilitate impusa P=1-α, sa contina valoarea m P i l d i d ( i t ti ti i) (f f ) i t l d i d
P⇒nivel de incredere (siguranta a estimatiei); (f-e1; f+e2)⇒interval de incredere;
Observatie:de regula e1=e2=e, iar f(x1, x2, …, xn)= ⇒
x x
-e < m < +ex
exemplu
X
i35,6 35,9 36,1 36,2 36,6 e = [t(α, n)·s]/[n
1/2]
i
, , , , ,
f
i1 3 3 2 1
x = 36,06; s = 0,2633; t
tab(0,01; 9)= 3,25 ⇒ e = 0,27
Intervalul de incredere ⇒ (36,06-0,27; 36,06+0,27) ≡ (35,79; 36,33)
15
Verificarea ipotezelor statistice
Ipoteza statistica (H):
orice consideratie despre proprietatile multimii din care a fost extrasa o proba (esantion; selectie).
• Ipoteza initiala (de nul) H0
• Ipoteza concurenta (alternativa) HIpoteza concurenta (alternat va) H11
Emiterea ipotezei ⇒verificarea ipotezei statistice Etape parcurse pentru verificarea ipotezei statistice:
1. Calculul marimii θcalc(pe baza datelor existente si functie de testul statistic aplicat);
2. Alegerea valorii critice θtab(din tabele adecvate);
3. Compararea θcalc⇔ θtab;
4. Acceptarea sau respingerea ipotezei de nul (pentru pragul de semnificatie αales).
Prelucrarea statistică a datelor de măsurare
Categorii de probleme care apeleaza la verificarea ipotezelor statistice
• Eliminarea rezultatelor aberante (testul Student; testul Grubbs-Smirnov etc.)
• Verificarea normalitatii distributiei datelor (testul χ2)
• Compararea dispersiilor(testul Fisher; testul Cochran)
• Compararea mediilor aritmetice(testul Student)
16
Eliminarea rezultatelor aberante
n=10 ⇒ x
1, x
2, …, x
10⇒ 72,5; 59,4; 78,0; 68,0; 63,0; 70,1; 72,9; 68,5;
54,5; 75,6
H
0⇒ minim; maxim sunt rezultate aberante? α=0,05
GScalccalc= ⏐⏐
x*- x x
⏐/ s⏐x x
= 68,25 ; s =7,366 , ; , 6 54,5 ⇒5 ,5 GSGScalccalc=1,868; 78,0,868; 78, ⇒ GSGScalccalc=1,325, 5 nP
2 3 4 5 6 7 9 10 12 15 20
0,90 1,18 1,50 1,70 1,84 1,94 2,02 2,15 2,20 2,28 2,38 2,60 0,95 1,39 1,74 1,94 2,08 2,18 2,27 2,39 2,44 2,52 2,62 2,73 0,99 1,82 2,22 2,43 2,57 2,68 2,76 2,88 2,93 3,01 3,10 3,21
GS
tab=f(n,P) P=1-α
GS
calccalc< GS
tabtab⇒ 54,5 si 78,0 nu sunt rezultate aberante pentru α , , p = 0,05 ,
tcalc= ⏐
x*- x
⏐/ s 54,5⇒x
= 69,78 ; s =5,89 78,0⇒x
= 67,17 ; s =6,91⇒tcalc= 2,594
⇒tcalc= 1,567
17
Verificarea normalitatii distributiei datelor
N=100 valori ⇒ x1, x2, …, x100 ⇒ L=10 intervale ; = 8,63 ; s=0,127 H0 ⇒distributie normala;
α=0,05
x
127 , 0
63 ,
−8
− =
= i i
i
x s
x
t x pi=Φ(ti)−Φ(ti−1)
5 , 0 ) (+∞= Φ
tabele din rala prob.integ )
( ⇒ ⇒
Φti
∑
= ⋅
⋅
= L −
i i
i i
calc N p
p N n
1
2
2 ( )
χ
Nr.
interv.
interval
(xi-1; xi]
n
it
iΦ(t
i) p
iχ
2i1 (-∞; 8,425] 7 -1,614 -0,4467 0,0533 0,523
2 (8,425;8,475] 5 -1,220 -0,3888 0,0579 0,108
3 (8,475;8,525] 8 -0,827 -0,2959 0,0929 0,179
4 (8,525;8,575] 10 -0,433 -0,1676 0,1283 0,624
5 (8,575;8,625] 18 -0,039 -0,0156 0,1520 0,516
Daca: χ2calc> χ2tab (α;L-3)⇒distributia difera de cea normala; P=1-α
Prelucrarea statistică a datelor de măsurare
, , , ,
6 (8,625;8,675] 17 0,354 0,1383 0,1539 0,168
7 (8,675;8,725] 12 0,748 0,2728 0,1345 0,157
8 (8,725;8,775] 9 1,142 0,3733 0,1005 0,110
9 (8,775;8,825] 7 1,536 0,4377 0,0644 0,048
10 (8,825;+∞) 7 +∞ 0,5000 0,0623 0,095
100 1,0000 2,528 χ2tab (0,05;7)=14,07
Compararea dispersiilor si a mediilor aritmetice
18Densitati de repartitie ce difera prin parametrul de grupare
x
1< x2
x
1x
21 2
s
1Parametri statistici: media aritmetica, mediana, modul, media geometrica, coeficientul de variatie, amplitudinea, asimetria, deviatia standard, dispersia, excesul etc.
Densitati de repartitie ce difera prin parametrul de imprastiere
s
1< s
2s
219
Compararea dispersiilor
Compararea a doua dispersii
x1’, x2’, …, xn1’⇒ s12; x1’’, x2’’, …, xn2’’⇒ s22; s12 > s22⇒Fcalc= s12/s22 daca Fcalc > Ftab(α; ν1; ν2)⇒dif.
semnif.
exemplu n1= 200⇒ s12= 3,82
n2=15 Xi’’ 44,6 45,7 46,5 48,5 49,5
fi 2 4 4 4 1 s22= 2,41
Fcalc= s12/s22= 1,585 Ftab(α; ν1; ν2)= Ftab(0,05; 199; 14)=2,13
α= 0,05 H0⇒diferenta semnificativa
⇒Fcalc< Ftab ⇒ se respinge H0 P= 0,95
Compararea a k dispersii
kserii de masurari ; nmasurari/serie ⇒s12; s22; …; sk2; (s12> si2, ∀i > 1); Gcalc= s12/Σsi2, i=1,…, n
Prelucrarea statistică a datelor de măsurare
m ; m 1; 2; ; k ; (1 i, ); calc 1 i , , ,
daca Gcalc > Gtab(α; k; ν)⇒dif. semnif.
exemplu
k = 6 ; n=7 ⇒ s12= 3,82; s22= 1,70; s32= 1,30; s42= 0,92; s52= 0,78; s62= 0,81 Gcalc = 3,82/9,33 = 0,409 Gtab(0,05;6;6) = 0,418
α= 0,05 H0⇒dif. semnif.
⇒Gcalc< Gtab ⇒ se respinge H0 P= 0,95
20
Compararea mediilor aritmetice
Compararea a doua medii aritmetice
x1’, x2’, …, xn1’⇒
x
1; s12; x1’’, x2’’, …, xn2’’⇒x
2 ; s22; Ipoteza: s12; s22= dispersii omogene H0⇒diferenta semnificativa) 1 ( ) 1
(
2 2exemplu
n1= 25⇒
x
1= 23,56 s12= 1,21 n2= 50⇒x
2= 22,80 s22= 1,56H dif t ifi ti P 0 99
tcalc= sech=
daca tcalc> ttab(α; n1+n2-2)⇒diferenta semnificativa (se accepta H0) pt. P=1-α
2 ) 1 ( ) 1 (
2 1
2 2 2
2 1 1
− +
⋅
− +
⋅
−
n n
s n
s n
2 1
2 2 1
1
n n
n n s
x x
ech
+
⋅ ⋅
−
H0⇒diferenta semnificativa P= 0,99
sech= 1,20 ⇒ tcalc= 2,584; ttab(0,01; 73)= 2,645; ⇒ tcalc< ttab ⇒ se respinge H0 P= 0,99
Aplicatia 2 – verificarea ipotezelor statistice
(1) 21Formularea problemei
Se efectuează un studiu economic care presupune compararea din punct de vedere al performanţelor şi al costurilor a unor mărci de automobile de pe piaţa mondială. Pentru realizarea studiului, au fost selecţionate mărci de automobile fabricate în: SUA, Uniunea Europeană şi Japonia.
Cu caracteristicile autoturismelor analizate, s-a alcătuit fişierul AUTO, care cuprinde 150 de înregistrări, corespunzătoare la tot atâtea mărci de automobile.
Caracteristicile urmărite (parametrii) au fost următoarele:
consum de benzină (mile străbătute cu un galon de benzină) –mpg;
număr de cilindri (4, 6 sau 8 cilindri) –cil;
deplasament –depl;
putere motor –putere;
timpul de accelerare de la 0 la 100 km/h –acc;
anul de fabricaţie –an;
Prelucrarea statistică a datelor de măsurare
ţ ;
masa automobilului –masa;
zona de origine –origin;
firma producătoare –prod;
model automobil –model;
preţul automobilului –pret;
cod zonă de origine: SUA – 1; CE – 2; Japonia – 3 –codorig.
22
Tab. 1 Valorile puterii autovehiculelor
Nr.crt. Putere
[CP] Nr.crt. Putere
[CP] Nr.crt. Putere
[CP] Nr.crt. Putere
[CP] Nr.crt. Putere [CP]
1 48 31 103 61 69 91 88 121 88
2 66 32 125 62 90 92 72 122 88
3 52 33 115 63 115 93 84 123 88
4 70 34 133 64 115 94 84 124 85
5 60 35 71 65 90 95 92 125 84
6 110 36 68 66 76 96 110 126 90
7 140 37 115 67 60 97 84 127 92
8 139 38 85 68 70 98 58 128 74
9 105 39 88 69 65 99 64 129 68
10 95 40 90 70 90 100 60 130 68
11 85 41 110 71 88 101 67 131 63
12 88 42 130 72 90 102 65 132 70
13 100 43 129 73 90 103 62 133 88
14 90 44 138 74 78 104 68 134 75
15 105 45 135 75 90 105 63 135 70
16 85 46 155 76 75 106 65 136 67
17 110 47 142 77 92 107 65 137 67
18 120 48 125 78 75 108 74 138 67
19 145 49 150 79 65 109 75 139 110
20 165 50 71 80 105 110 75 140 85
20 165 50 71 80 105 110 75 140 85
21 139 51 65 81 65 111 100 141 92
22 140 52 80 82 48 112 74 142 112
23 68 53 80 83 48 113 80 143 96
24 95 54 77 84 67 114 76 144 84
25 97 55 125 85 67 115 116 145 90
26 75 56 71 86 67 116 120 146 86
27 95 57 90 87 67 117 110 147 52
28 105 58 70 88 62 118 105 148 84
29 85 59 70 89 132 119 88 149 79
Aplicatia 2 – verificarea ipotezelor statistice
(3) 23Se cere:
1. să se completeze fişierul AUTO cu cele 150 de valori ale puterii motorului (putere) din Tab.1;
se apelează la instrucţiunea de editare a fişierelor şi se introduce o nouă coloană;
2. să se determine numărul de automobile apaţinând fiecărei zone de origine, precum şi valoarea medie, minimă şi maximă a consumului de benzină, pentru fiecare dintre cele trei zone de origine;
se recurge la calculul parametrilor statistici (Summary Statistics);
3. să se stabilească dacă pentru un prag de semnificaţie α=0,05, consumurile de benzină ale automobilelor fabricate în SUA şi în CE diferă semnificativ de valoarea mpg= 50 şi dacă da, în ce sens?;
se recurge la analiza unui şir de date (One Sample Analysis); se selectează din totalul valorilor cele referitoare la automobilele analizate (Select);
4. să se găsească un prag de semnificaţie pentru care consumul de benzină al automobilelor fabricate în Japonia nu diferă semnificativ de valoarea mpg= 31,5; pentru o siguranţă a estimaţiei de 95%; cât este
intervalul de încredere al mediei aritmetice în acest caz?;
se recurge la analiza unui şir de date (One Sample Analysis); se selectează din totalul valorilor cele referitoare la automobilele analizate (Select);
5. să se stabilească dacă din punct de vedere al masei automobilului şi al preţului acestuia, automobilele fabricate în SUA şi Japonia sunt echivalente, pentru un prag de semnificaţie α=0,05; dar din punct de vedere al timpului de accelerare?;
se recurge la analiza a două şiruri de date (Two Sample Analysis); se selectează din totalul valorilor cele referitoare la automobilele analizate (Select);
6. să se decidă dacă în cele trei zone de origine, maşinile cu 4 cilindri sunt echivalente din punctul de vedere al caracteristicilormpg,masa,accşipret; dar maşinile cu 6 cilindri, din punct de vedere al anului de
Prelucrarea statistică a datelor de măsurare
caracteristicilor mpg, masa, acc şi pret; dar maşinile cu 6 cilindri, din punct de vedere al anului de fabricaţie? pentru α=0,05;
se recurge la analiza a două şiruri de date (Two Sample Analysis); se selectează din totalul valorilor cele referitoare la automobilele analizate (Select);
7. să se stabilească dacă există vreo zonă de origine în care diferenţele de preţ între automobilele cu 4 şi cu 6 cilindri sa nu fie semnificative (pentru α=0,05);
se recurge la analiza a două şiruri de date (Two Sample Analysis); se selectează din totalul valorilor cele referitoare la automobilele analizate (Select);
8. să se reprezinte histograma frecvenţelor valorilor consumului de benzină pentru automobilele fabricate în SUA, precizându-se în axe inclusiv unităţile de măsură şi zona de origine a automobilelor pentru care s-a făcut reprezentarea.
se recurge la reprezentarea grafică a histogramei frecvenţelor (Frequency Histogram); se selectează din totalul valorilor cele referitoare la automobilele analizate.
24
a
Analiza dispersionala unifactoriala
(1)Este utilizata pentru verificarea semnificatiei efectelor produse de catre un factor de influenta X, asupra unei functii obiectiv Y, intr-un domeniu analizat.
Date initiale: FO; FIsi nivelele FI: X1; X2;…; Xa; nr. de replici pe fiecare nivel, n ⇒
⇒volumul experimentului
Y
NCTIE OBIECTIV, Y
Y
ijµ
iβ
iε
ij 2i
Y
ij= µ + β
i+ ε
ijFU
factor influenta X
X1 X2 Xi Xa
Y
µ
1
H
0⇒ µ
1= µ
2=…= µ
i=…= µ
a⇔ β
1=…= β
i=…= β
a25
FO: y; FI: x; m ⇒ 4 nivele ale FI; n = 5 replici pe fiecare nivel
s2nivel= (S2-S3)/(m-1) s2e = (S1-S2)/m(n-1)
∑∑
= ==
mi n
j
y
ijS
1 1
2
1
∑
=
⋅
=
ni
y
in S
1 2
2
( ) ∑
=
=
nj ij
i
y
y n
1 2
1
3
m n y
TS = ⋅ ⋅ Analiza dispersionala unifactoriala
(2)Nr.
repl.
Nivele ale factorului X
x1 x2 x3 x4
1 56 64 45 42
2 55 61 46 39
3 62 50 45 45
4 59 55 39 43
5 60 56 43 41
suma 292 286 218 210
Sursa dispersiei
Suma
patratelor Grade de
libertate Dispersii estimate Fcalc
Nivelele factorului de
influenta
S2– S3= 1135
ν= m-1=
3
s2nivel= 378,3 s2niv
____
s2e
Erorile aleatoare 29,8 de masurare
S1– S2= 203,2
ν0= m(n-1)=
16
s2e= 12,7 Dispersia totala S1– S3= mn-1= -
Prelucrarea statistică a datelor de măsurare
suma nivel
292 286 218 210
medie nivel
58,4 57,2 43,6 42,0
p 1338,2 19
F
tab(α; ν; ν0)= F
tab(0,05; 3; 16)= 5,29 deoarece F
calc> F
tab⇒ factorul X are influenta semnificativa asupra lui Y
26
Formularea problemei
Un beneficiar producător de confecţii este interesat de maximizarea rezistenţei la întindere a unei noi fibre sintetice. El doreşte săafle dacăprocentul de bumbac din fibrăafectează aceastărezistenţă şi în ce mod.
f l l l l li i fib b i i
Aplicatia 3 – analiza dispersionala unifactoriala
(1)Se cunoaşte faptul căpentru a avea celelalte calităţi cerute, fibra trebuie săconţină între 10% şi 40% bumbac.
Se considera ca problema propusă poate fi studiata apelandu-se la analiza dispersionala unifactoriala.
Pentru aceasta, se alege:
- ca functie obiectiv y ≡Rmrezistenţa la întindere a fibrei in [N/cm2];
- ca factor de influentax, procentul de bumbac din fibră;
în domeniul de interes pentru beneficiar, factorului de influenta i se fixeaza a= 5 nivele de variatie, corespunzatoare urmatoarelor continuturi de bumbac: 10%, 15%, 20%, 25% si 30%, pentru fiecare nivel efectuandu-se caten= 5 determinari (replici) ale rezistenţei fibrei; rezulta pentru intregul experiment un efectuandu-se cate n= 5 determinari (replici) ale rezistenţei fibrei; rezulta pentru intregul experiment un numar de N= a·n= 25 masurari.
Cele 25 de determinari ale rezistenţei fibrei au fost efectuate în ordine aleatoare, pentru a evita influenaa factorilor sistematici asupra rezultatelor masurarilor.
Ordinea de efectuare a incercarilor, precum si rezultatele obtinute sunt prezentate in tab.1.
27
Tab.1 Rezultatele masurarilor in ordinea de efectuare a acestora Numar
masurare Continut de bumbac [%]
Rezistenţă [N/cm2]
Numar masurare
Continut de bumbac
[%]
Rezistenţă [N/cm2]
1 15 17,5 14 15 20,4
2 25 57 9 15 10 16 2
Se cere:
a) să se decidă asupra faptului dacă procentul de bumbac din fibră influenţează semnificativ rezistenţa la întindere a acesteia, pentru o siguranţă a afirmaţiei de 95%;
b) să se stabilească pentru ce procent de bumbac din fibră se obţine valoarea maximă a rezistenţei acesteia; să se precizeze care este valoarea medie a
Aplicatia 3 – analiza dispersionala unifactoriala
(2)2 25 57,9 15 10 16,2
3 15 16,4 16 30 99,8
4 30 107,3 17 30 105,6
5 25 67,6 18 20 25,6
6 10 14,7 19 10 16,9
7 20 21,7 20 20 24,5
8 15 15,9 21 30 101,4
9 20 22,8 22 25 58,4
10 25 64,5 23 30 109,5
celor cinci replici corespunzătoare acestui procent de bumbac, precum şi intervalul de încredere în care se situează adevărata valoare a rezistenţei fibrei, pentru o siguranţă a estimaţiei de 95%;
c) să se compare grafic valorile medii ale rezistenţei fibrei pentru diferitele procente de bumbac şi să se aprecieze dacă există mai multe valori ale procentului de bumbac pentru care rezistenţele la rupere ale fibrelor să nu difere semnificativ, pentru o siguranţă a estimaţiei de 95%;
Prelucrarea statistică a datelor de măsurare
11 15 22,2 24 25 68,6
12 10 12,9 25 10 13,4
13 20 16,4 - - -
d) să se stabilească dacă reziduurile prezintă o distribuţie aleatoare sau urmează o anumită tendinţă, în timpul realizării încercărilor;
e) să se stabilească toate valorile conţinutului de bumbac pentru care apar diferenţe semnificative între rezistenţele fibrelor; să se facă aceeaşi analiză utilizând testele Scheffe şi Duncan şi să se formuleze concluziile finale.
28
Aplicarea metodologiei de calcul
Pentru aplicarea metodologiei de calcul, in tab.2, este data matricea-program a experimentului, obţinută pe baza rezultatelor din tab.1.
In tab.2 apar si sumele valorilor functiei obiectiv (rezistenţa fibrei) corespunzatoare nivelelor, precum si mediile
y
iale valorilor functiei obiectiv, corespunzatoare fiecarui nivel, i al factorului de influenta(continutul de bumbac).
Aplicatia 3 – analiza dispersionala unifactoriala
(3)Tab.2 Matricea-program a experimentului Numar replica Valorile masurate ale rezistenţelor yij[N/cm2] functie de nivelul ial
factorului de influenta(procentul de bumbac din fibră)
j 10% 15% 20% 25% 30%
1 14,7 17,5 21,7 57,9 107,3
2 12,9 16,4 22,8 67,6 99,8
3 16,2 15,9 16,4 64,5 105,6
4 16,9 22,2 25,6 58,4 101,4
5 13,4 20,4 24,5 68,6 109,5
yi
yij
j i
=
=
=
∑
∑
1 51 5
yT=139 8, Medie nivel
Suma nivel 74,1 92,4 111 317 523,6
14,82 18,48 22,2 63,4 104,72
Valori globale: 699,22 ;
Aplicatia 3 – analiza dispersionala unifactoriala
(4) 29In cazul utilizarii analizei dispersionale unifactoriale, se presupune ca rezultatele masurarilor pot fi puse sub forma:
y
ij= µ
i+ ε
ij= µ + β
i+ ε
ij, i=1,...,5 ; j=1,...,5 ,
µ ⇒centrul de grupare global al tuturor rezultatelor masurarilor yij(media aritmetica a intregii populatiiy);
µi⇒mediile aritmetice corespunzatoare nivelelor (centrul de grupare al valorilor masurate pentru nivelulial factorului de influenta analizat);
pentru nivelulial factorului de influenta analizat);
yij⇒rezultatele experimentale, corespunzatoare celora·ndeterminari;
εij⇒valorile erorilor aleatoare de masurare, avand repartitii normale independente in jurul valorilor µi, repartitii caracterizate de parametrii (0,σ2).
iar ipoteza de nul ce se doreste a fi verificata este de forma:
H0: β1= β2= ... = β5
Metodologia de calcul pentru cazul aplicarii analizei dispersionale unifactoriale, conduce la rezultatele sintetizate in tab.3.
Tab.3 Rezultatele aplicarii metodologiei de calcul pentru analiza dispersionala unifactoriala
S di i i S t t l G d d Di ii C it i t ti ti
Prelucrarea statistică a datelor de măsurare
F s
calculat s
nivel e
= 22
Sursa dispersiei Suma patratelor Grade de libertate
Dispersii (estimate)
Criteriu statistic
Nivelele factorului de
influenta
SSnivel= 30193,202 a- 1= 4 s2nivel=
7548,3004
Erorile aleatoare de masurare
SSe= 259,164 N - a= 20 s2e= 12,9582
= 582,511 Dispersia totala SST= 30452,366 N -1= 24
-
30
Valoarea criteriului Ftabpentru un prag de semnificatie al testului: α= 0,05 se alege pentru ν1
= 4 si ν2= 20 din tabele adecvate, rezultand:
F0,05;4;20 = 2,83 Deoarece:
Fcalculat> Ftab ,
rezulta cu probabilitateaP =1-α= 0 95 respectiv cu o siguranta a estimatiei de 95% ca ipoteza de nul se
Aplicatia 3 – analiza dispersionala unifactoriala
(5)rezulta cu probabilitatea P 1-α 0,95, respectiv cu o siguranta a estimatiei de 95% ca ipoteza de nul se respinge, deci ca mediile aritmetice ale valorilor funcaiei obiectiv corespunzatoare nivelelor factorului de influenta difera semnificativ;
aceasta este echivalent cu a spune ca procentul de bumbac din fibră influenteaza semnificativ rezistenţa acesteia.
Valoarea R2calculata cu relatia este:
R SS SS
nivel T
2
= 30193 202
30452 366 , 0 9915
, = ,
= T
rezultand ca peste 99% din imprastierea rezultatelor masurarilor in jurul valorii mediei lor aritmetice poate fi explicata pe baza analizei dispersionale unifactoriale. Marimea R2 (coeficientul de pondere) este o masura a adecvantei aplicarii metodei analizei dispersionale si respectiv a influentei continutului de bumbac asupra rezistenţei fibrei.
Aplicatia 3 – analiza dispersionala unifactoriala
(6) 31Valorile estimate ale mediilor rezistenţelor fibrei corespunzatoare procentului de bumbac din aceasta, deviatiile standard pentru fiecare nivel al factorului de influenta, precum si intervalele de incredere ale mediilor corespunzatoare unei sigurante a afirmatiei de
95% ( 0 05) li i b 4
Tab.4 Marimi estimate pe baza rezultatelor masurarilor Medie nivel
yi
Nivel factor i
Procent bumbac [%]
Numar determinari
n [N/cm2]
Deviatia standard [N/cm2]
Interval de incredere 95%
[N/cm2]
1 10 5 14,82 0,7729166 [11,46; 18,18]
2 15 5 18,48 1,2138369 [15,12; 21,84]
3 20 5 22,20 1,5984637 [18,84; 25,56]
95% (α= 0,05), sunt centralizate in tab.4.
4 25 5 63,40 2,2487774 [60,04; 66,76]
5 30 5 104,72 1,8098066 [101,36; 108,08]
Pentru identificarea procentelor de bumbac care duc la obtinerea unor rezistenţe ale fibrelor intre care nu exista diferente semnificative se poate aplica metoda Scheffé de analiza a contrastelor.
Prin aceeasta metoda se analizeaza toate comparatiile posibile intre oricare doua valori Tab.5 Analiza tuturor perechilor de medii aritmetice prin metoda Scheffé
Numar comparatie
Nivele ale caror medii se compara
(contrast)
Diferenta intre medii [N/cm2]
Existenta unor diferente semnificative (95%)
1 10% - 15% 14,82 - 18,48 = -3,66 NU
2 10% - 20% 14,82 - 22,20 = -7,38 NU
3 10% - 25% 14,82 - 63,40 = -48,58 DA
Prelucrarea statistică a datelor de măsurare
p p
medii ale rezistenţelor fibrelor, corespunzatoare utilizarii celor cinci continuturi de bumbac.
Rezulta, cu o siguranta a afirmatiei de 95%
concluziile sintetizate in tab.5.
Prin analiza tuturor contrastelor, rezulta ca fiind omogene (fara a produce diferente semnificative asupra functiei obiectiv) urmatoarele grupe de nivele: 10%; 15%; 20% bumbac.
4 10% - 30% 14,82 - 104,72 = -89,90 DA
5 15% - 20% 18,48 - 22,20 = -3,72 NU
6 15% - 25% 18,48 - 63,40 = -44,92 DA
7 15% - 30% 18,48 - 104,72 = -86,24 DA
8 20% - 25% 22,20 - 63,40 = -41,20 DA
9 20% - 30% 22,20 - 104,72 = -82,52 DA
10 25% - 30% 63,40 - 104,72 = -41,32 DA
32
In urma efectuarii deteminarilor experimentale si a prelucrarii statistice a rezultatelor prin metoda analizei dispersionale unifactoriale pot fi formulate urmatoarele concluzii:
1. procentul de bumbac din fibrăinfluenteaza semnificativ rezistenţa acesteia la întindere Rm;
2 la cresterea conţinutului de bumbac in domeniul studiat se inregistreaza o crestere a rezistenţei
Aplicatia 3 – analiza dispersionala unifactoriala
(7)2. la cresterea conţinutului de bumbac, in domeniul studiat, se inregistreaza o crestere a rezistenţei fibrei, dupa cum urmeaza:
- intre 10% si 20% bumbac crestere nesemnificativa din punct de vedere statistic;
- la peste 20% bumbac modificarile procentului de bumbac din fibrăconduc la cresteri semnificative ale rezistenţei acesteia.
33
Metoda celor mai mici patrate.
Analiza regresionala
Prelucrarea statistică a datelor de măsurare
Metoda celor mai mici patrate.
34Consideratii generale.
Problema de rezolvat:
Sa se gaseasca cu ajutorul rezultatelor experimentale legatura:FO=f(FI) Rezultat pentrumasurari nereplicate Rezultat pentru
Rezultate experimentale Masurari replicate de 3 ori pt. fiecare niv. al lui X
tie obiectiv Y tie obiectiv Y
Rezultat pentru masurari replicate
utilitate redusa
rezultatul
Factor de influenta X Factor de influenta X
Funct Func
Functie obiectiv Y Functie obiectiv Y
legatura
Particularitatea problemei:
Datorita prezentei erorilor experimentale, nu trebuie ca punctele experimentale sa fie unite cu segmente, ci trebuie sa se gaseasca "curba"care sa treaca cat mai aproapeposibil de ansamblul punctelorexperimentale, limitand pe cat posibil « zgomotul" experimental.
rezultatul cautat
Factor de influenta X Factor de influenta X
F
35
Observatie:
Este necesara definirea formeigenerale a modeluluiexperimental cautat, iar metoda permite particularizarea modelului (gasirea coeficientilor modelului)cu ajutorul rezultatelor experimentale .Model li i
Regresie liniara Regresie logaritmica
Metoda celor mai mici patrate
Cazul unei functii obiectiv de o singura variabila.
liniar
Model logaritmic
Model exponential
Regresie exponentiala Regresie cu un polinom de grad 5
Prelucrarea statistică a datelor de măsurare
exponential
Model polinomial
36
Y = b0+b1x
Y = b0+b1x+b2x2
grad1 grad2
Y = b0+b1x+b2x2+b3x3
Y = b0+b1x+b2x2+b3x3+b4x4
grad3 grad4
grad b0 b1 b2 b3 b4 b5
1 1,247 1,155 - - - -
2 -2,162 2,859 -0,155 - - -
3 1,700 -0,566 0,588 -0,045 - -
4 0,625 0,812 0,083 0,024 -0,003 -
5 -1,227 3,865 -1,519 0,382 -0,039 0,001
Observatii:
Nr. coef. bt≤N Gradul polinomului: se alege;
Poate fi identificat un grad optimal al polinomului,care depinde de N si de precizia de
estimare dorita.
37
1. Stabilirea FO si FI (domeniu, nivele, structura experimentului) 2. Realizarea incercarilor ⇒ rezultatele experimentale: y
1, y
2, …, y
i,…, y
n3. Ipoteza asupra formei legaturii "f" FO↔FI
Metodologia pentru aplicarea metodei celor mai mici patrate
4. Explicitarea legaturii y=f(x
j, b
t) calculand coeficientii b
tai modelului
(j=1,…, k; t=1,…, d; y=FO; xi=FI; bj=coef. modelului)
) 1 /(
] ) , ( [ ) 1 /(
~ )
(
21 1
2 2
⎥⎦ ⎤ −
⎢⎣ ⎡ −
=
⎥⎦ −
⎢⎣ ⎤
⎡ −
=
= ∑ ∑
=
=
n y b x f n
y y s
S
ni
i i t j n
i i i
con dispersie de concordanta
Prin definitie:
Observatie: gasirea bt minimizand dispersia de concordanta ⇒rezolvarea sistemului de
y
i~
⇒Valori estimate;y
i ⇒Valori masurate;Prelucrarea statistică a datelor de măsurare
Observatie: gasirea bt minimizand dispersia de concordanta ⇒rezolvarea sistemului de ecuatii (sistem de ecuatii normale)
d b S t
t
= 0 , = 1 ,...,
∂ ∂
⇒ b
t38
Calculul coeficientilor de regresie in cazul unei functii de gradul I de o singura variabila
y=f(x
j, b
t) ⇒ y=b
0+ b
1x
Problema: gasirea lui b
0si b
1cu ajutorul a n rezultate experimentale
⎤
⎡
⎤
⎡
⎤
⎡ ( ~ ) /( 1 ) [ ( , ) ] /( 1 ) [ ] /( 1 )
1 1 2 2 0
1 1
2 2
⎥⎦ ⎤ −
⎢⎣ ⎡ + −
=
⎥⎦ −
⎢⎣ ⎤
⎡ −
=
⎥⎦ −
⎢⎣ ⎤
⎡ −
=
= ∑ ∑ ∑
=
=
=
n y x b b n
y b x f n
y y s
S
ni
i i n
i
i i t j n
i i i con
0
;
0
10
= ∂ ∂ =
∂ ∂
b S
b S ⇒ b
0; b
11 1 1
2 1
− ∑ ∑
∑
∑
ni i i n
i i n
i i n
i
i
x x x y
y
b n ∑
nx
iy
i− ∑
nx
i∑
ny
i2
1 1
2
1 1 1 0 1
⎟ ⎠
⎜ ⎞
⎝
− ⎛
=
∑
∑
= ==
=
=
=
n i
i n
i i
i i i i
x x
n
b
21 1
2
1 1 1 1
⎟ ⎠
⎜ ⎞
⎝
− ⎛
=
∑
∑
= ==
=
=
n i
i n
i i
i i i