פורסם על ידי: or100 | מאי 28, 2009

שיפוט והערכה בתנאי אי וודאות – בלוק 4: מאמר 8 חלק ב

מאמר 8 – האם אלה שיודעים יותר יודעים יותר על מידת הידע שלהם?

Do those who know more

Also know nore about

How much they know?

Lichtenstein&Fischhoff

(1977)

כמה מילים על המאמר באופן כללי

המאמר משכלל את ההגדרות של מאמר 7

  • כמו מאמר 7 גם מאמר 8 עוסק במשתנה התאורטי של "ידע על ידע", אך הוא משכלל את ההגדרות האופרציונליות של משתנה זה, וחוקר אותו יותר לעומק.

התייחסות למבחן

  • למבחן יש לשים דגש על חמשת המדדים המוזכרים בהמשך לבדיקת "ידע על ידע"

מבנה המאמר והשאלה המרכזית

החלק הראשון: הצגת הגדרות אופרציונליות למשתנה התיאורטי "ידע על ידע":

  • הנושא מוצג ומגדירים את המדדים האופרציונליים בהם משתמשים פישהוף וחבריו כדי לחקור את הנושא.

החלק השני השוואת שיפוט הסתברות בין מומחים ובין הדיוטות- האם אלה שיודעים יותר גם יודעים יותר על מה שהם יודעים:

  • מציג תוצאות של מחקרים שנערכו בעזרת מדדים אלו ומסקנות בדבר השוואת איכות שיפוטי ההסתברות בין מומחים (בעלי ידע רב) לבין הדיוטות (חסרי ידע),
  • השאלה המרכזית היא האם אלה שיודעים יותר הם גם מכוילים ויודעים יותר על רמת הידע ויכולת השיפוט באי וודאות שלהם?

השיעור בכיתה

  • השיעור בכיתה התמקד בחלק הראשון:
  • המטרה שלו להבין את המתודה המאפיינת מחקרי בטחון, את הרציונל מאחרי כל מדד, ואת המשמעות התאורטית שלו.
  • צריך לקרוא גם את החלק השני של המאמר ולהכיר את המסקנות העיקריות העולות מהניסויים.

הקריטריון הנורמטיבי (במחקרי כיול)

  • כשאנחנו מדברים על מחקרי קליברציה "ידע על ידע" השאלה הראשונה שאמורה לעלות היא מהו הקריטריון הנורמטיבי
  • בקריטריון הנורמטיבי הכוונה אל הקריטריון אליו נשווה את ביצועי הנבדקים.
  • במקרים קודמים שנלמדו בקורס הקריטריון הנורמטיבי הצביע על תשובה אובייקטיבית על פי המודל הנורמטיבי. בין אם היתה זו תשובה מדויקת (E ו4- בבעיית הקלפים) ובין אם היתה זו תשובה אופטימלית (0.41 על פי בייס בבעיית המוניות).
  • הפתרון היה אובייקטיבי במובן זה שלכל נבדק אמור להיות אותו קריטריון.

מחקרי כיול הם מחקרים מסוג אחר:

  • שכן אם אנו רוצים למדוד ידע על ידע חשוב לזכור שלכל אחד מהנבדקים יש ידע אחר ואיננו יודעים את מידת הידע לפני ביצוע בדיקה אמפירית,
  • ולכן במחקרים אלו כל נבדק או כל קבוצת נבדקים יוצרים לעצמם את הקריטריון, על פי מידת הידע שהם מפגינים והבטחון שהם מצהירים לגבי ידע זה.
  • כדי להבין את שיטת המחקר בואו נערוך דוגמא למחקר מסוג זה:
  • (כאן המורה חילק דף עבודה  (איור 4-8-1)

חמשת המדדים:

1. ידע

Knowledge

2. ביטחון יתר/ חסר ביטחון

Over/Under

confidence

3. כיול

Calibration

4. רזולוציה

Resolution

5. ציון ברייר

Brier Score

אדם מכוייל לחלוטין

  • אדם מכויל לחלוטין הוא אדם שלאורך זמן אחוז התשובות הנכונות שלו בכל קטגוריה נבחרת שווה להסתברות של אותה קטגוריה.

הסבר באיור 4-8-2: גרף של האדם המכויל, והסבר הקריטריון הנורמטיבי קו הכיול

  • נניח שהאדם המכויל לחלוטין אומר על שאלות מסוימות שהסיכוי שהוא צדק הוא 60% אז לאורך זמן יתברר שבסוג שאלות זה הוא צדק ב 60% מהמקרים (כנ"ל לגבי אחוזי שאלות אחרים (70%, 20% וכד')
  • · כלומר יש מתאם מלא בין רמת ביטחון לאחוז הדיוק
  • · אדם זה יודע לזהות מתי הוא צודק טוב, מתי הוא פחות צודק.


1. ידע – זהו המדד הפשוט ביותר והוא נותן אינדיקציה לידע של הנבדק.

  • המדד מחושב על ידי הכפלת פרופורצית התשובות הנכונות * במשלים שלה ל1-: C(1-C)
  • פרופרציית התשובות הנכונות מסומנת ב   -C ומדד הידע ב Knowledge:

2. K= C (1-C)

  • המדד מניח שאדם חסר ידע יצליח ב- 0.5 מהשאלות ולכן הוא נע בין 0 ל0.25-.
  • כאשר אדם חסר ידע יענה על 50% מהשאלות נכון ויקבל את הציון 0.25 הציון המינמלי.
  • אדם בעל ידע מושלם יענה על 100% מהשאלות נכון ויקבל את הציון 0 הציון המקסימלי.
  • ( הערה – מדובר לאורך זמן ויש כאן הנחה סמויה שלאורך זמן לא יענה אדם יותר מ50%-  טעות).

נוסחת חישוב

טווחים

משמעות

סיכום

במקרה שלנו

1.

ידע: Knowledge

C(1-C)

הכי טוב: 0

K=1(1-1)=0

* 1 זה שכל התשובות נכונת

הכי גרוע: 0.25

K=0.5(1-0.5)

* 0.5 זוהי ההסתברות הסטטיסטית

רמת הידע האובייקטיבי

נותן אינדיקציה לידע: ככל שיורד מ 0.25 ל 1 כך יותר טוב

C=(72/100)=0.72

K=0.72*(1-0.72)

K=0.2016


2. ציון בטחון יתר/חסר Over/Under confidence

מדד זה מהווה אינדיקציה לנטייה הכללית של שיפוט להיות בעל בטחון יתר/חסר בשיפוטי הסתברות.

  • המדד מחושב על ידי השוואת הערך ההסתברותי של כל קטגוריה נבחרת לפרופורצית  התשובות הנכונות בכל קטגוריה
  • והנוסחה מסכמת וממצעת ערך זה על פי מספר השאלות שנבחרו בכל קטגוריה.
    • כלומר לגבי כל קטגוריה את הפער בין RT  (קטיגורית ההסתברות) לבין CT (יחס התשובות הנכונות- כלומר מספר תשובות נכונות חלקי מספר השאלות בכלל), נכפיל את הפער הזה במספר השאלות שנבחרו בקטגוריה הספציפית, ואת סכום הביטוי הזה מעבר לקטגוריות נחלק במספר השאלות הכללי.

  • 0 הציון הטוב ביותר במדד זה הוא 0,זהו הציון של אדם שלאורך זמן אין לו נטייה לבטחון יתר/חסר.
      • כשאדם זה חושב שהוא צודק במאה אחוז הוא צודק במאה אחוז מהמקרים
      • כשאדם זה חושב שהוא צודק ב 60% הוא צודק ב 60% מהמקרים
      • וכד'

  • +1 יהיה הציון של בעל בטחון יתר הגבוה ביותר overconfidence (למרות שסותר את הנחת הסיכויים שגם אם לא יודעים עונים 50% נכון)

  • -1 יהיה ציון של בנאדם בעל בטחון חסר הגדול ביותר underconfidence (למרות שהציון הזה מעשית לא הגיוני בפורמט זה, שכן צריך תמיד לסמן חוסר בטחון ולענות תשובה נכונה ואין כאן קטגוריה של חוסר בטחון).

  • · נוסחא:
    • (1/N) * ånt(rt-ct)

  • · גרפים של שלושת המקרים הקיצוניים:
  • o איור 4-8-3 ב': overconfidence
  • o איור 4-8-3 א': underconfidence
  • o איור 4-8-3 ג: אדם מכויל

החסרון של המדד

  • אדם יכול להיות  בקטגוריות נמוכות בעל בטחון יתר חזק, ובקטגוריות גבוהות בעל בטחון חסר חזק, ובסך הכל להסתמן כחסר נטייה למרות שיש לו פערים שיטתיים ביחס לקו הכיול.  איור 4-8-4 א':
  • או שיכול להראות שהוא מכויל לגמרי למרות שלא כך הדבר : איור 4-8-4 ב'

נוסחת חישוב

טווחים

משמעות

סיכום

במקרה שלנו

2. ביטחון יתר/ חסר ביטחון

Over/Under confidence

(1/N) *

ånt(rt-ct)

N= מספר שאלות כולל

+ פירושו  ביטחון יתר

+1 זהו הציון המקסימלי

פירושו ביטחון חסר

-1 פירושו אדם עם פחות ביטחון

0: פירושו מושלם

נטיית השיפוט של הנבדק

נותן אינדיקציה לנטיה כללית לבטחון יתר/ חסר

(1/100)*7=

0.07

כלומר נבחן זה סוטה ב 7% מקו הכיול

3. ציון הכיול- עוצמת הסטיה מקו הכיול

  • בכדי להתגבר על החסרון הנ"ל של מדד הבטחון יתר/חסר (ממד 2 )
  • הוצע מדד הכיול אשר לוקח בחשבון את מידת הסטייה מקו הכיול מבלי להתחשב בכיוונה.
  • מדד הכיול מורכב מאותם מרכיבים של מדד הבטחון יתר/חסר, אלא שהוא מעלה את ההפרש בין הסתברות הקטגוריה הנבחרת לאחוז התשובות הנכונות באותה קטגוריה בריבוע ובכך הופך את הסטייה לחיובית תמיד (בדומה לשונות לעומת ציון תקן).
  • · נוסחא:
    • (1/N) * ånt (rt-ct)^2

  • ציון הכיול (המדד ) בודק סטיה ממוצעת מהקו- כלומר הוא נותן אינדיקציה למידת הסטיה מקו הכיול (אבל לא נותן אינדיקציה לכיוון שלה)

  • ציון הכיול נע בין 0 ל1
  • ככל שהוא גבוה יותר (מתקרב ל 1 ) משמעותו שהאדם פחות מכויל.
  • ככל שהוא קרוב יותר לאפס משמעותו שהאדם יותר מכויל
  • הנבדק הנורמטיבי (האדם המכויל) יקבל את הציון 0.

נוסחת חישוב

טווחים

משמעות

סיכום

במקרה שלנו

3. כיול:

Calibration

(1/N) * ånt (rt-ct)^2

0 פירושו הכי מכויל (הכי טוב)

1 פירושו הכי לא מכויל (הכי גרוע)

עוצמת הסטיה מקו  הכיול

0.7/100=

0.007

החשיבות של ציון הכיול ומדד הבטחון הדגמה בגרף: איור 4-8-5

  • לכאורה נשאלת השאלה: אם לציון הכיול יתרונות, מדוע לא לוותר על מדד הבטחון יתר/חסר?
  • הסיבה היא שציון הכיול  חסר כיוון:
  • שני נבדקים אחד בעל בטחון יתר חזק ואחד בעל בטחון חסר חזק יכולים לקבל את אותו ציון כיול.
  • לפיכך שני הציונים חשובים, שכן הם עוסקים באותו משתנה תאורטי אך מספקים לנו מידע שונה:
  • ציון הבטחון יתר/חסר עוסק בכוון הסטייה מקו הכיול לאורך זמן,
  • וציון הכיול עוסק בעצמת הסטייה מקו הכיול.


4. ציון הרזולוציה

  • ציון הרזולציה הוא אינדיקציה לעד כמה האדם רגיש לרמות שונות של אי וודאות או עד כמה הוא משתנה ביחס למציאות.
      • (במילים אחרות עד כמה אני רגיש לגירויים שונים במציאות)

    • דוגמא
      • לטלוויזיה בעלת רזולציה טובה היא טלוויזיה עם הרבה קולטנים המעבירה תמונה חדה ורגישה מאוד לשינויים בצבע או במרקם של האובייקט המצולם.
        • יש לשים לב שייתכן שלטלוויזיה תהיה טעות שיטתית ביחס למציאות, למשל שהיא תעביר כחולה או בהירה יותר אך עדיין ברזולוציה טובה,
        • כלומר תהיה הבחנה בין כל הגוונים של האובייקט אך כולם יהיו בהירים יותר.

    • בדומה יכול להיות אדם בעל בטחון יתר קבוע אופטימיסט, אך לפחות בעל רזולוציה טובה,
      • כלומר משתנה היטב יחד עם המציאות ועם דרגת הקושי של השאלון, אך תמיד חושב שהוא יודע קצת יותר מאשר הוא באמת יודע.

  • הרזולציה מחושבת על ידי השוואה של % התשובות הנכונות בכל קטגוריה ל% התשובות הנכונות בכללי,
  • למעשה זוהי מעין שונות בהערכות הסתברות בין הקטגוריות, ככל שהשונות בין הקבוצות גדולה יותר הרזולציה טובה יותר.

      • נוסחא:

      • (1/N)ånt(ct-c)^2

הסבר נוסף

  • נבדק עם רזולוציה טובה
      • העקומה של נבדק עם רזולוציה טובה תהיה מקבילה לקו הכיול-
        • כלומר ככל שהשיפוע יורד לכיוון 45 מעלות הרזולוציה טובה יותר
      • איור 4-8-6 א' מראה כיצד תראה העקומה של נבדק עם רזולוציה טובה
        • נבדק עם רזולוציה טובה מתואם טוב עם המציאות, הוא מרגיש נכון בהקשר למציאות ורק יש לו סטיה שיטתית
      • דוגמא לנבדק עם רזולוציה טובה זהו תלמיד שכאשר הוא מרגיש שהוא יקבל 60 הוא מקבל 70, שהוא מרגיש 80, הוא מקבל 90 – כלומר ההרגשה שלו מתואמת עם המציאות
          • במילים אחרות- יש יותר ביטחון במה שהוא יודע (גם אם זה מוטה)

  • נבדק חסר כל רזולוציה
      • העקומה של נבדק חסר כל רזולוציה תהיה אופקית
          • כך שבכל קטגוריה נבחרת יש אותו % של תשובות נכונות
            • אם נקח מחשב ולכל תשובה נחלק רנדומלית קטגוריית בטחון אז תתקבל רזולציה אפקית.
      • איור 4-8-6 ב' מראה כיצד נראית העקומה של נבדק חסר כל רזולוציה כלומר רזולוציה =0
        • נבדק חסר רזולוציה  לא מרגיש מתי הוא צודק ומתי לא
          • באיור נראה שהוא תמיד חושב שהוא צודק בביטחון של 60% (יחס התשובות הנכונות שלו הוא 60%- כלומר ct=0.6)
            • וזאת בלי קשר להרגשה שלו (50%, 60% (רמת ביטחון יחידה שהוא צודק), 80% וכד'
      • דוגמא לנבדק חסר רזולוציה זה אחד שתמיד מרגיש רע אחרי המבחן, בלי קשר לציונים שהוא יקבל
  • למבחן
    • צריך להבין את ציון הרזולוציה, אבל לא צריך לדעת לחשב אותו.

סיכום בטבלה

נוסחת חישוב

טווחים

משמעות

סיכום

במקרה שלנו

4. רזולוציה

Resolution

(1/N)ånt(ct-c)^2

0 : ציון הכי  גרוע

ככל שיותר גבוה יותר טוב

רגישות לרמות שונות של אי וודאות (עד כמה האדם משתנה ביחס למציאות)

כלומר עד כמה האדם מתואם עם המציאות (כמה האדם מרגיש שהוא צודק)

0.1268/100

=0.001268

5. ציון ברייר

  • ציון ברייר ציון ברייר זהו ציון מסכם המאפשר להשוות בין נבדקים בשלושת המשימות
  • (המורה רואה בציון הזה ציון מיותר)

  • ציונים קיצוניים
  • ציון מינימלי הוא 0 –המצב הכי טוב:
  • ציון מקסימלי הוא 1 – המצב הכי גרוע:
  • (מצב שכל התשובות לא נכונות וכל הערכות של הנבדק הם 1 (100%)
  • ציון סביר יותר למי שלא יודע הוא 0.25
  • כאלה שאין להם שום ידע ורושמים תמיד את התשובות שלהם ברמת ביטחון של 0.5 (ואכן מכיון שזה ניחוש אז יש להם באמת 50% תשובות נכונות)

  • באופן כללי נוכל לטעון שככל שהנבדק בעל ציון בריייר יותר נמוך כך איכות ההערכות ההסתברותיות שלו טובה יותר, שכן שני ציונים כיוונם ככל שקרוב ל0- טוב יותר והרזולציה קיבלה סימן שיהפוך אותה.

אם נסכם את הציונים שלמדנו בטבלה נוכל לראות

ציון הכי טוב

ציון הכי גרוע

הציון

0

0.25

ידע

0

1, -1

בטחון יתר/חסר

0

1

כיול

ככל שיותר גבוה

0

רזולציה

  • ניתן לראות שבטחון יתר /חסר וכיול דומים,
  • ידע בכיוון של כיול וכן שרזולציה מתנהגת בכיוון הפוך ליתר הציונים
  • לכן ציון הברייר לא מתחשב בבטחון יתר/חסר והופך את כיוון הרזולציה כך:
  • ברייר = ידע + כיול – רזולציה.

נוסחת חישוב

טווחים

משמעות

סיכום

במקרה שלנו

5. ציון ברייר

Brier Score

+ C(1-C)

+ (1/N) *

ånt(rt-ct)^2

(1/N)ånt(ct-c)^2

כלומר:

+ ידע

+ כיול

– רזולוציה

0: הכי טוב

1: הכי גרוע

ציון מסכם

+ 0.2016

+0.007

-0.001268

= 0.207332

סיכום המדדים

  • בסה"כ ניתן לראות שהמאמר מציע 5 אינדקסים אופרציונליים שמפרקים את המונח התאורטי איכות ההערכות ההסתברותיות ל4- מונחים אופרצינליים
  • כך שכל מונח מציג אינפורמציה שונה וביחד הם נותנים לנו תמונה מפורטת ועמוקה של התנהגות הנבדק.

התייחסות לקבוצות

  • חשוב להדגיש כי עד כה  דיברנו כאן על נבדק יחיד אך לעיתים מבצעים את המחקרים הנ"ל על קבוצות ומפיקים את המדדים באותו אופן על קבוצה שלמה.
  • אוספים את כל השאלות שהקבוצה ענתה 0.5 ובודקים כמה מתוכם נכונות וכדו'..

  • מחקרי כיול על קבוצות מאפשרים לאפיין קבוצות שונות וכן לבדוק את השפעת הקונטקסט על קבוצה,
  • לדוגמא כיצד הקבוצה מתנהגת בשאלון ברמת קושי גבוהה לעומת שאלון ברמת קושי נמוכה.

לצרף :

  • · טבלת חישוב לחמשת המדדים לדוגמא- איור 4-8-3
  • · טבלת סיכום ל חמשת המדדים: איור 4-8-4
  • · התייחסות לגרפים לדוגמא: איור 4.8.5 א', ב', ג' (מצורפים)- עבור השאלות האמריקאיות במבחן

נקודות נוספות לדיון אם נשאר זמן:

  • -גיגריינזר וביקורתו לבטחון היתר, שכיחות מוערכת לאורך זמן לעומת הערכת בטחון באירוע יחיד.

מסקנות עיקריות של המאמר

  • לגבי השאלה של : האם אילו שיודעים יותר גם יודעים יותר על מה שהם לא יודעים?
  • התשובה היא לא בהכרח

  • · ההבדל הבולט ביותר הוא בין אילו שיודעים משהו לבין אלו שלא יודעים כלל:
  • נבדקים שיש להם מעט מאוד ידע בתחום מסוים נוטים להפגין ביטחון יתר
  • נבדקים שיש להם יותר ידע בתחום מסוים נוטים להפגין בטחון חסר.

חזרה לשיפוט והערכה בתנאי אי וודאות

מודעות פרסומת

כתיבת תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s

קטגוריות

%d בלוגרים אהבו את זה: