
În ultimii ani, România s-a înscris foarte hotărât într-un proces de generare a unor date de calitate privind starea educației. Continuarea participării la studiul PISA (Programme for International Student Assessment) al OECD, reluarea participării la studiul TIMSS (Trends in Mathematics and Science Study) al IEA, intrarea în studiile ICCS (International Civic and Citizenship Study) și ICILS (International Computer and Information Literacy Study), precum și capacitatea dezvoltată de entități private de a genera date de calitate foarte bună și în volum mare despre sistemul educațional românesc sunt semne de normalitate care fac posibile politici publice bazate pe dovezi științifice. Trendul este lăudabil și nu putem spera decât că se păstrează și se intensifică.
Există însă, ca în cazul oricărei evoluții, și voci care ridică semne de întrebare – uneori asupra întregului trend (de exemplu, susținând că evaluarea, în mod special evaluarea standardizată, care face posibilă obținerea acestor date, nu ar avea utilitate, sau, mai rău, nu ar fi oportună), iar uneori asupra datelor efective – asupra eșantioanelor din care acestea sunt obținute sau a metodologiilor cu care sunt culese.
Concluziile pe care le putem trage în urma testărilor pe scară largă în domeniul educațional – programe de evaluare de tipul evaluărilor naționale, a testărilor PISA sau TIMSS etc. – sunt în mod evident influențate de calitatea datelor pe care aceste studii le extrag; nimeni nu ar contesta acest lucru. Este natural ca până la urmă concluziile să nu poată fi mai corecte decât datele pe care se bazează – de aici și preocuparea cu date de cât mai bună calitate. Preocuparea aceasta este însă de foarte multe ori obtuză și nu ține cont nici de motivul fundamental pentru care avem nevoie de date de calitate și nici de abordările statistice care pot contrabalansa într-o bună măsură mici imperfecțiuni în eșantioane. Departe de a face o apologie a datelor de slabă calitate, acest eseu discută nevoia de date bune și repercusiunile lipsei acestora – așa cum discută și câteva aspecte practice, care poate vor fi utile celor care discută în agora sau utilizează în politici publice rezultatele unor astfel de programe de evaluare.
În general, în eforturi de testare pe scară largă datele de bună calitate se echivalează cu date reprezentative. Cu alte cuvinte, reprezentativitatea datelor este considerată indicatorul ultim pentru calitatea unui studiu sau a unui eșantion. Acest lucru este normal din anumite puncte de vedere: oare cum am putea să extragem concluzii pertinente despre starea educației (concluzii absolute adică), sau despre diferențe între diverse grupuri (deci, concluzii relative) fără ca ele să se bazeze pe date care sunt reprezentative pentru sistemul educațional și/sau despre grupurile vizate?
Reprezentativitatea unui eșantion este privită așadar ca scop în sine. Totuși, reprezentativitatea este doar un instrument pentru altceva – anume puterea de generalizare a rezultatelor respective. Caracteristica unui studiu – sau mai degrabă a concluziilor sale – de a fi generalizabil, de a putea fi reflectat la un nivel mai înalt decât cel la care a fost produs, de exemplu pentru a descrie o întreagă populație care nu a fost în mod direct și complet evaluată, este aspectul spre care tindem de fapt.
De exemplu, dacă vom realiza un studiu privind motivele absenteismului într-o școală cu 20 de clase, pe baza unui eșantion care cuprinde câte 5 elevi din fiecare clasă, în ce măsură putem să ne bazăm pe rezultatele acestui studiu? Rezultatele reflectă fără doar și poate opiniile emise de cei 100 de elevi intervievați. Reflectă ele și realitatea din întreaga școală? Sau poate din toate școlile acelui oraș? Sau poate pentru întregul sistem de educație din România? O modalitate simplă de a ieși din dilemă ar fi să spunem „nu – evident, aceste rezultate nu sunt generalizabile“. Pe de altă parte, răspunsul corect este „depinde“: depinde de procedura de eșantionare utilizată, depinde de metodologia utilizată, de întrebările puse și de atât de multe alte lucruri.
Acesta este motivul pentru care nici generalizabilitatea unei concluzii dintr-o cercetare educațională și nici reprezentativitatea unui eșantion nu sunt chestiuni de alb sau negru – diferența dintre „a fi reprezentativ“ și „a nu fi reprezentativ“ este o diferență treptată, calitativă. Putem chiar argumenta că niciun eșantion nu este, strict vorbind, reprezentativ; un anumit nivel al erorii va exista întotdeauna, reprezentativitate perfectă niciodată.
Reprezentativitate în structura eșantionului
Eșantioanele non-randomizate, adică cele construite pe baza unor presupuneri, oricât de informate, stipulate anterior selecției, sunt în mod cert nereprezentative pentru variabile care exced presupunerile inițiale. De exemplu, dacă vom dori ca eșantionul nostru să fie reprezentativ în termeni de sex și vârstă (i.e., să reflecte structura bivariată sex × vârstă din populația generală a elevilor), acest lucru poate fi asigurat cu ușurință – însă nu va însemna în niciun fel că structura eșantionului astfel rezultat va reflecta de exemplu procentele corecte în ceea ce privește mediul de proveniență (rural vs. urban).
Eșantioanele randomizate (aleatorii) au cea mai bună șansă de a rezolva această problemă – dar dincolo de dezideratul nobil, procedura efectivă de selecție le face de cele mai multe ori, de fapt, cvasi-aleatorii. De exemplu, să presupunem că imaginăm o cercetare în care este necesar un eșantion randomizat (aleator) de elevi, care va fi obținut prin intervievarea fiecăruia al zecelea elev din fiecare școală din România. Până aici totul e corect – dar avem nevoie de o procedură concretă pentru a obține acest eșantion. Putem imagina o procedură care spune că vom trimite un intervievator în fața fiecărei școli din țară, care va opri fiecare al zecelea elev care iese de la școală în ziua X, pentru a-l intervieva. Chiar presupunând că toți cei opriți răspund și chiar făcând abstracție de problemele de etică și chiar legalitate care este posibil să apară (e.g., consimțământul informat din partea părintelui), este probabil clar pentru toată lumea că această procedură nu va rezulta într-un eșantion cu adevărat randomizat, ci doar cvasi-randomizat – sunt atât de multe variabile care vor influența absența sistematică de la școală a unor elevi mai degrabă decât a altor elevi. Această procedură de implementare a eșantionării este dependentă de faptul că elevii vin la școală – și știm că absenteismul este în general dependent de variabile sociale precum statutul socio-economic: aplicând procedura aceasta vom avea în eșantion mai puțini elevi cu statut socio-economic scăzut decât ar trebui. Știm, de asemenea, că absenteismul în zona rurală este mai mare decât în zona urbană – ar trebui ca pasul să fie de aceea în zona rurală mai mic? Știm că absenteismul variază și în funcție de condițiile meteorologice – în zilele cu ploaie sau cu temperaturi extreme, absentează mai mulți elevi: ar trebui ca pasul să fie ajustat în funcție de condițiile meteorologice constatate în acea localitate în acea zi? Am putea continua în acest fel – dar sunt convins că este evident că din multe motive, eșantionul care va rezulta nu va fi cu adevărat reprezentativ: dezideratul este nobil, dar procedura nu ne ajută. În fapt, nu există nicio procedură care să poate fi aplicată în mod realist, care să fie perfectă din acest punct de vedere.
Este imposibil în acest context să nu atingem problematica absenteismului non-aleator. În orice tip de evaluare pe scară largă ne vom confrunta și cu absenteism. De exemplu, se poate întâmpla cu ușurință ca în ziua examenului unii elevi să fie bolnavi și să nu poată participa – un eșantion echilibrat cu grijă se poate dezechilibra în acest fel. Sigur, dacă absențele sunt aleatorii, ele influențează minimal rezultatele – problema este că de regulă absențele nu sunt aleatorii. Știm de exemplu că absențele la Evaluările Naționale pentru clasele 2, 4 sau 6 sau pentru celebrele testări internaționale PISA sau TIMSS nu sunt distribuite uniform în toate grupele de elevi. Participarea elevilor în aceste programe de evaluare nu este obligatorie – da, este puternic recomandată și este încurajată de minister, dar nu este obligatorie. Și pe cât de încurajată este de minister, pe atât de descurajată este de unii profesori sau părinți. Părinții care nu își lasă copiii să participe în aceste testări au un anumit profil. Profesorii care descurajează propriii elevi să participe au și ei un anumit profil, școlile cu absenteism mare au un anumit profil și deci elevii care absentează au un anumit profil. Cu un absenteism care este în unele ediții și de 10-15% din întregul eșantion, absenteism care este în plus distribuit disproporționat pe considerente de mediu de proveniență și statut socio-economic (absentează cu precădere elevii din zone sărace), în ce măsură poate fi considerat un eșantion reprezentativ, chiar și atunci când el a fost construit cu foarte mare grijă? Ba, mai mult, în ce măsură pot fi considerate reprezentative în aceste condiții rezultatele unei testări naționale – adică a unui program de evaluare care nu a încercat deloc să eșantioneze, ci a încercat să măsoare întreaga populație?!
Reprezentativitate în procesele asociate performanței măsurate
Mai aducem în discuție o chestiune care nu e atât de mult cantitativă cum este calitativă, cu impact semnificativ asupra reprezentativității unui eșantion și a generalizabilității rezultatelor extrase pe baza datelor respective.
Noi presupunem, de cele mai multe ori naiv, că participanții dintr-un eșantion sunt cu toții egali în ceea ce privește motivarea pentru participarea la cercetare, sinceritatea cu care dau răspunsuri etc. Studiile arată însă că există diferențe între elevii care participă la o cercetare în ceea ce privește acest nivel de motivație. În studiile în care se culeg opinii, aceasta se răsfrânge asupra onestității cu care sunt date răspunsurile. Mai semnificativ, în studiile în care culegem date de performanță (de exemplu testări privind nivelul de literație/alfabetizare sau de competențe la o materie, să zicem matematică) implicarea elevilor în procesul de testare este critică. Testarea educațională este o testare de performanță înaltă, adică i se cere elevului să dea cât de mult poate, să se implice în rezolvarea rapidă și corectă a problemelor pe care i le prezintă testul. Dar oare câți dintre elevi, în cadrul acestor testări, se implică de fapt cu adevărat la acest nivel maximal de funcționare cognitivă? Studiile ne arată că, mai ales atunci când rezultatele testării nu au consecințe directe asupra elevului (cum este cazul pentru majoritatea testărilor care nu produc note), elevii nu resimt o motivație deosebită și că, mai mult, diferențele de motivație nu sunt distribuite aleator în populația școlară, ci sunt asociate cu alte variabile cum ar fi de exemplu… da, din nou: statutul socio-economic, mediul familial etc. În medie, elevii care provin din medii defavorizate sunt mai puțin motivați la astfel de testări fără miză și prin urmare vor reflecta performanțe care sunt mai reduse decât ar fi putut fi. Statutul socio-economic este asociat așadar nu doar cu o diferență de performanță, ci de asemenea cu o diferență de motivație, care face ca diferența constatată de performanță să fie și mai mică.
Atunci când procesul de testare implică o miză pentru elevi, problema motivației diferențiale nu se mai pune. Acesta este de exemplu cazul Bacalaureatului sau Evaluării Naționale – este o presupunere rezonabilă că toți elevii care participă vor să obțină o notă cât mai bună, deci se implică pe cât de bine pot în rezolvarea testelor. Dar, chiar și în aceste condiții de motivație suficientă a tuturor elevilor care participă, eșantioanele care rezultă din evaluarea anuală de Bacalaureat sau din diversele Evaluări Naționale nu sunt reprezentative: absenteismul este non-aleator.
Avem așadar o problemă fundamentală legată de reprezentativitatea în aceste tipuri de testări educaționale: ele nu pot fi niciodată cu adevărat și pe deplin reprezentative, iar rezultatele extrase din aceste date, de regulă culese cu multă trudă, nu pot fi niciodată cu adevărat generalizabile. Cercetătorii vor face eforturi și vor explica limitele – iar cârcotașii vor găsi întotdeauna de ce să se agațe când va fi nevoie să construiască un argument împotriva concluziilor rezultate. Căci, după cum bine știm, cel mai simplu mod în care putem dărâma o concluzie care nu ne este pe plac este atacul la bază: calitatea datelor din care acea concluzie a rezultat.
Dragoș Iliescu – profesor universitar
Articol integral publicat în Tribuna Învățământului nr. 34





