(摘自《兒童心理學手冊》第六版第四卷<應用兒童心理學>第4章 數學思維與學習)
CLIA模型的評價部分是關于設計、建構和工具的使用,來決定強有力的學習環境是如何使學生容易地獲取數學傾向的不同方面。這暗示那些工具應該按照前面討論過的數學教學的最終目標和數學學習的本質的觀點進行排列。
數學學習的評價,既可以是內部的,也可以是外部的。
內部評價是由教師在課堂上組織的、正式的或較不正式的;外部評價是從外面而來的大規模評價,由地區、州、國家甚至國際水平應用標準化測驗或調查進行組織。
如同在NRC(2001b)中討論的,為達到三個目的而開展了課堂評價和大規模評價:幫助學與教、測量每個學生的成績和評估學校計劃。學者們的觀點各不相同,Webb(1992)區分了評定數學的下列目的:給老師提供學生應該知道什么和能夠做什么的證據;調查學生知道什么、做什么和相信什么是重要的;通知教育系統中的決策者;整體上監控教育系統的職能。
關于課堂評價,我們認為在CLIA框架中,主要目的是使用針對學習的評價,也就是說它給學生和教師提供有用的信息,來鼓勵和優化更深入的學習。Sloane和Kelly對照學習評價或者形成的評價,提出使用學習評價的目標是決定學生能夠得到什么和他們是否達到了一定的成績和熟練水平。一個最近經常被討論的關于2001年的“不讓一個兒童落后法案”的話題,他們把這個描述成“高風險測驗”。在強調課堂評價之前,我們大規模評價,但大多數不是必然的,采用了高風險測驗的方式。
數學學習的大規模評價
在教育中,美國比歐洲更經常使用標準化測驗。“不讓一個兒童落后法案”和相關的有責任的需求已經提升了這一行為,并且強化了高風險測驗的有效性和可持取性。特別是自從20世紀90年代開始,對傳統的測驗進行了批判。雖然各種研究已經提高了潛在的理論和成績評價技術,但R. Glaser和Silver認為:“不過,目前這一工作的大部分還在實驗之中,目前國內教育系統成績評價中最普遍使用的練習在過去50年內幾乎沒有什么變化。”
如前所述,對廣泛使用的標準化測驗的分析表明,數學能力的新觀點和那些測驗所涵蓋的內容之間不匹配。由于多種選擇模式過多地使用,測驗集中于評價記憶的事實、死記硬背的知識和低水平的操作能力。它們不能充分地促進學生產生問題解決能力、模式化復雜情境能力、溝通數學觀念能力、數學活動和數學傾向的其他更高等級的相關信息和有用的信息。相關的批評指出,針對學生數學學習成績的傾向測試定位片面,且忽略了那些成績取得的過程。
這一陳述的一個重要結果是評價經常對課程的執行、課堂氣氛、指導練習有負面的影響,且產生了WYTIWYG原則(測驗你什么,你就得到什么,What You Test Is What
You?Get)(1992)。事實上,測驗給學生和教師傳遞了一個暗示的信息,即只有事實、標準程序和低水平技巧在數學教育中是重要的和有價值的。結果導致教師傾向于“教測驗”,即他們對理解、推理和問題解決的教學為代價,調整和減少他們的指導來給予測驗所要求的低水平知識和能力的講授。
大多數傳統的評價工具的另一個主要的缺點是,它們與教學相脫節。事實上,因為他們的靜態和結果定位的性質,大多數的成績測量不能提供學生對基本概念的理解、他們的想法和問題解決過程的反饋。因此,它們不能針對學生和教師的進一步學習和指導提供相關的和有用的信息。在這方面,Chudowsky和Pellegrino質疑大規模的評價是否既能測量又能支持學生的學習,他們提出:
我們提出大規模評價能夠并且應該做更多的工作來支持學習的主張。但是為了達到這一點,教育領導者需要重新思考一些目前在美國運作大規模評價的基本的假設、價值和信念。支持變化的知識基礎是有用的,但是必須被駕馭。
事實上,除了以前對傳統標準化成績測驗固有的批評外,主要爭論的一點是,他們對高風險測驗結果的解釋,也就是,他們為了收集學生成績的數據進行了基礎的強制管理,決定包括學生畢業、教師的酬勞以及學校和學區的鑒定資格等。根據“不讓一個兒童落后法案”,這一法案的目標是所有學生在閱讀和數學方面進步。盡管如此,更重要的是讓人懷疑目前的測驗項目是否能真正地鼓勵和提高教與學的效果。在Amrein和Berliner(2002)包括18個州的研究中,沒有任何有力的證據顯示出學生學習的提高,也沒有達到那些州的高風險測驗項目的預期成果。而且,有很多相反結果的報告,比如,中途退學比例的增加,對少數和特殊教育學生的負面影響,教師和學生在測驗中的欺騙,教師離開工作崗位等。此外,在破壞了學習更廣泛知識的情況下,學生只會學習測驗需要的知識。
正如Cudowskey和Pellegrino提出,因為大規模評價能真正地鼓勵和提高學生的學習,我們就必須改變當前測量的基本原理,限制目前高風險測驗項目的練習。作為例子,我們可以看看目前在比利時的佛蘭德地區的發展大規模測驗的一個可以選擇的方法。
前文中,我們介紹了我們中心的一個研究,在研究中,我們設計了一個數學問題解決的學習環境,按照佛蘭德基礎教育的新標準,實驗從1998年學年開始持續到1999學年。在后來的項目中,受佛蘭德教育部門委托,我們發展了(開發了)整個數學課程新標準的國家評價工具。工具被用在學生小學畢業時對課程標準的達標情況作第一手的、大規模的評價。評價目標不是評估學生個體或學校作為高風險決策的基礎,而是獲得整體數學成績的陳述。評價工具包括24個測量等級,每個等級代表一組標準和包含關于數字、測量和幾何的所有數學課程。
項目反應理論被應用在該測量的建構上。使用分層的樣板設計,一個相當有代表性的樣本,來自184所學校的5763個六年級學生(12歲)參與了調查。考慮到評價目的,沒有必要獲得所有學生個別的成績,人口樣本方法能夠被使用“在哪個方面不同的學生承擔大規模評價的不同部分,然后合并結果來獲得學生整體的成績”。這一方法也考慮到涵蓋整個課程標準的寬度。特別需要指出的是,該工具包含10本冊子,每本包括40個項目,屬于24個測量等級中等兩個或三個;冊子在某種程度上是變化的,每本冊子中的測量等級代表不同的數學內容(比如,第2冊中的項目與百分數和問題解決有關)。每本冊子包含500多個六年級樣本。四個不同的項目公式被使用:簡答(67%),包括一些子問題的簡答(14%),多項選擇答案(11%)以及結果和過程問題(8%)。特別通過詢問動機或對答案的解釋來考察最后一種較高級的能力。圖4.1顯示四個項目格式的每一個的例子。
在24個等級的每一個等級上估計三種表現的學生比例:不充分的、充分的和熟練掌握的。這個評價的結果可簡要陳述如下。陳述性知識和那些包含低等級數學程序的知識掌握得最好。關于更加復雜的程序(比如,計算百分數,計算周長、面積、體積)和那些包含高級思維能力的知識(問題解決,估算和近似值)掌握得不太好。后一種發現不那么讓人吃驚,因為那些與標準有關的等級在佛蘭德斯的數學課程中是相對新的。一個有趣的現象是,沒有觀察到性別差異的表現。
未來佛蘭德教育部門的目標是定期進行這樣的大規模數學教學的評價。因為目前正在實施評價,所以現在討論評價對數學教與學的影響還為時過早。雖然如此,潛在的影響是顯而易見的。實際上,因為評價包含了整個課程,它的研究結果對于進一步討論所有教育相關人士(政策決策者、教師、管理者和教育顧問、父母、學生)對標準的反應是個很好的起點。也由于這種評價方法的寬度,揭示了那些沒有被充分掌握的標準。在這樣做的過程中,評價通過鑒別課程教與學中那些需要特別關注的方面,給從業者(課程設計者、教師、顧問)提供了相關的反饋;研究者也能集中干預在前面章節中討論的學生能力的薄弱環節。第三個評價和課程安排的優勢是,避免了時常聽到的、對測驗的教與學的抱怨,特別是在結果公布后能提供適當的咨詢和跟蹤關注。另外,因為教育部門不需要使用教師和學校個體的評價結果,并且因為不公布學生、班級和學校的分數,就避免了高風險測驗的結果。
課堂評價
雖然大規模評價和外部評價具有相關性和重要性,但是它們還需要內部課堂測驗的補充。大規模測驗是一種價值求和的方式:它們在對包含或多或少廣泛的學科領域的課程部分相對長時間的指導之后,才來測量成績。對學習的評價是很明顯的,也就是說,幫助和支持課堂學習,需要格式化:教師在指導的過程中,需要不斷地收集學生對知識、技能的理解和掌握的評價信息,把評價信息作為進一步指導和支持學習的基礎,如果需要,對個別學生或學生小組提供及時正確的幫助和指導。這樣的格式化的評價也提供給學生自己信息的反饋,并作為他們管理和規劃個人學習的基礎。鑒于外部評價對大規模監控數學教學是有用和重要的,課堂評價考慮到班級整體以及學生個體的強項和弱項,課堂評價試圖提供每天的信息來提供學生的學習成績。
考慮到要完成課堂評價在鼓勵和支持學習方面預期的作用,課堂評價工具應按學習目標或標準來安排,與大規模測驗類似。因為課堂評價更多地集中在對一個特定學習小組的學習和指導(小組也可能是學生個體),它應該提供關于學生的概念理解和思維過程以及問題解決策略甚至比大規模測驗更多的信息。這為教師指導進一步的學習和教學,尤其是調整教學來適應學習者的需要,提供了最好的依據。
在我們的研究中,一個非常簡單的例子能闡明這一診斷信息的重要性。在兒童數字加減法的解決過程的研究中,一道題______-12=7,主要得出兩個錯誤答案18和5。兩個答案都是錯的,但是解答過程是完全不同的:第一個錯誤答案是由于在執行算術運算時的技術錯誤;第二個錯誤是對等號理解上的偏差。通過追蹤兒童的解題過程和思路,我們能夠測查出他們的理解水平,而這一信息對設計個別學生的輔導計劃是必要的。
Reasoning 數量的理解:提高學生的成績和推理能力)。圖4.2所示的開放式問題就提供給中學生這樣的問題:Yvonne 一周坐8次公共汽車,花費8美元。購買周票要多花費1美元。”課堂上教師認為這是一個簡單的問題,期望得到“否”的答案。但是讓人吃驚的是,相當一部分學生的答案是“是”,在傳統測驗中認為這一回答是錯誤的。然而,那些兒童的解釋是,車票會有一個好的折扣,因為Yvonne能在周末的其他旅行中使用,或者用于其他家庭成員。這清楚地表明,要了解學生入門知識和理解能力,不僅要看他們的答案,而且要看他們的思維和推理的過程。
前面的討論顯示使用評價來幫助指導,需要兩方面結合,如同NRC預想的那樣:“評價應該是完整教學的一部分。它是一個機制,是教師了解學生的數學思維和學生能完成哪些內容的手段。”依據這一觀點,Shavelson和Baxter已經直接指出:“一個好的評價產生好的教學活動,一個好的教學活動產生好的評價。”
我們可以將這一觀點放到學習者身上,一個好的評價體系能夠產生好的學習行為,一個好的學習行為會產生好的評價。考慮到CLIA模型中的學習概念,這也暗示著評價應該包含給學習者分配有意義的任務,提供自我調節和合作的機會——除了個體外——來接近任務和問題的解決。符合建構主義者的學習觀,在學生自我調節的學習中,增加的熟練程度會逐漸導致學生需要自我評價他們的數學學習的能力。當然,從這個觀點來看,應該讓學生清楚標準和期望。
為了收集學生的表現和進步的數據,一個方法是教師使用大量的技術:非正規問題、課堂作業和家庭作業、訪談和正式的工具,比如課堂測驗、學習潛能測驗和進步圖。由Piaget(1952)首創的訪談是當兒童在解決數學問題時,洞察他們的思維和推理過程的非常有效的技術。由于它容易作出反應和得到開放的答案,為分析思維過程提供了可能。
另一個方法是針對頭腦結構和認知過程的診斷,被稱作學習潛能測驗。Vygotsky(1978)提出最近發展區(ZPD)的一個概念。學習潛能測驗的目的是對提供兒童學習能力的ZPD進行診斷的評價。這樣的測驗包含三個步驟:前測、學習階段和后測。前測評價兒童面對目標問題的入門能力。在學習階段,經常采用個別訪談的方式,測試者管理仔細設計的任務的這種順序,代表著增加的困難水平/轉換水平的連續統一體;兒童在解決連續任務時需要幫助的數量被作為衡量學習效率的指標。最后,實施后測來衡量在這一過程中學習的數量。這樣,學習潛能測驗提供了一個很好的指導和評價相結合的例子。
從發展觀來看,對課堂評價非常有用的工具,應該是以理論為基礎的,是一幅進步圖,它描繪了在給定領域發展和獲取知識及能力的典型次序。我們以Griffin和Case發展的數字和知識測驗為例來介紹。這個測驗最早被用來測試作者關于兒童對于整數的中心概念結構常態發展理論的工具。在這點上,他們區分了四個階段:
1.初始的查數和數量知識:4歲能查一組數并且具有一些數量的知識,當物品排成一列時,讓他們回答多或少的問題。但是他們不能正確回答這樣的問題,比如“4和5哪個多”?
2.心算數列策略:6歲左右,兒童能夠回答后面那種類型的問題(不用借助物品),表明那兩個早期的結構被整合成頭腦中的數列,Griffin和Case認為這是一種中心概念結構。
3.雙重查數結構:到了8歲,兒童一旦懂得了如何心算,他們不停的形成多位數列的描述,比如2倍、5倍、10倍、100倍的查數。
4.理解全部系統:到了10歲,兒童需要對整個數字系統和以10為基礎的數字系統的整體理解。
雖然數字知識測驗最初被用作一種研究工具,但在北美已經越來越多地被用作一種診斷評價工具,用來幫助算術教學。為了更好地研究4歲兒童對數字的理解,已對測驗進行了修訂。修訂版本見圖4.3。
這個數字知識測試對兒童采用口頭和個別進行的方式。測驗直到兒童不能回答一定數量的問題,不能進入下一個水平測驗的時候停止。這樣測驗能得到兒童理解數字的發展方面非常豐富的數據,前面提到的它內在的理論基礎使它作為一種評價工具更有效。雖然教師最初會經常抗拒這樣個別的口頭測驗,但大部分教師在發現它非常有用價值之后都會改變態度。他們報告說,測驗揭示了他們以前不知道的兒童不同的思維方式。因此,教師更加積極地聽取學生的想法,他們發現這樣做的結果對支持和鼓勵學生的學習是非常有幫助的。
小結
在過去15年中,理論的研究和實證主義研究讓評價的作用發生了重大變化,與建構主義學者的學習觀一致。NRC(2001b)總結這些作用如下:
評價,特別是那些在課堂指導情境下的評價,應該把注意力放在“把學生的思維方式呈現給老師和他們自己”上,這樣老師能夠選擇指導策略來支持未來學習的合適的過程……評價最重要的作用之一是,在教與學的過程中向學生提供及時的和有益的反饋,以使他們的技巧的實施和隨后的學習是有效的和有效率的。
學習和教學領域的研究者,也包括測驗和心理測驗學的專家,已經開始努力設計和建構創新的評價手段與建立新的理論和程序,也致力于基于研究對評價和教學進行明確的整合。
雖然如此,我們只進行了第一步,因此我們還需要進行更廣泛的長期的研究。對評價新觀點的執行首先需要打破在教育行為評估中普遍的傳統觀點。我們需要說服政策制定者、實踐者和公眾,目前的高風險測驗的教育觀以及評估對學習有好處的觀點是無效的,甚至是有害的。這很關鍵,因為大規模評價在通常的標準測驗方案中傳播并且影響課堂評價。如同Amrein和Berliner(2002)討論的那樣,如果高風險測驗不能達到預期的結果或者產生了意料之外的負面結果,那么現在就應該更加全面地商討高風險測試政策并且努力地改變它們。
一個未來研究的主要的挑戰是,把心理測驗學理論與目前有成效的學習和有效率的教學結合起來。在這點上,最近已經取得了一些進展,向NRC(2001b)的報告《了解學生們知道什么:教育評價的科學和設計》描述的那樣。但是要建構可選擇的新的教育評價方法還有許多工作要做。另外一個研究的重要的爭論是發展以計算機為基礎的評價系統。由于計算機可以表示多種任務和難題的可能性,考慮到學習者以前的知識和能力,計算機有適應測驗和提供反饋的潛能,以及儲存和處理數據的能力,計算機在實現挑戰性的工作和實施評價方法方式來幫助和支持學習和指導上是非常有用的。