課堂評價～學習目標和學習方法匹配

摘? ? 要：高質量的課堂評價要從測試目的、學習目標、測試設計和高效的傳達四大要素綜合考量。本文聚焦學習目標與測試設計之間的銜接，首先討論了學習目標的類別，特別是學習目標中的認知維度，認為 Chappuis 和 Stiggins（2017）的思維目標便于教師在課堂評價中操作使用。本文接著對評價方法和手段進行分類，構建了四大類十二小類的評價方法和手段系統。基于前面的討論，本文最后對學習目標與評價方法和手段之間的契合度進行評判和討論，旨在為教師在課堂評價決策過程中提供思考方向。

關鍵詞：課堂評價；學習目標；評價方法和手段；匹配

作者：林敦來，北京師范大學外國語言文學學院副教授，碩士生導師，

北京師范大學外文學院公外部主任。

引言

每一項測試均源于特定目的。教師在進行課堂評價過程中容易出現的誤區之一是混淆兩大類別的測試：常模參照測試和標準參照測試。前者關注學生的排名情況，而后者關注的則是學生是否達到教學目標要求。 Brown（2017a）將標準參照測試看作是教師為診斷學生學習或檢測學生學習成果而準備的測試，它能提高學生的學習動機并能提供及時的反饋，從而促進學習。

因此筆者倡議教師在課堂評價中應該主要采用標準參照測試。在標準參照測試中，確定明確的學習目標極其重要，本文首先介紹學習目標的類別，然后參閱 Brown（2017b）介紹課堂評價中常見的評價方法和手段，并探討這些評價方法和手段與學習目標之間的匹配度問題，以期為教師提供在課堂評價決策中的思考方向。

學習目標分類

在討論學習目標之前，有必要先介紹高質量課堂評價的要素。Chappuis & Stiggins（2017）通過長期的研究發現高質量課堂評價要有四大要素（如圖1所示）。圖1顯示高質量的課堂評價源于清晰的測試目的，其目的可以是終結性的，如驗收學生學習成果；也可以是形成性的，如診斷問題所在以調整教學。

圖 1. 高質量的課堂評價（改編自 Chappuis & Stiggins，2017）

測試目的決定了測試目標和測試設計。如上文所述，教師應該在課堂評價中采用標準參照測試，設定明確的學習目標作為考查重點，并依此設計恰當的評價方法來檢測學習目標。最后，高質量的課堂評價還需要高效的傳達，為學生提供詳細的學習成果數據，讓他們知曉學習目標的完成情況，發揮課堂評價的促學作用。在整個過程中，不難看出學習目標的基礎性作用。

Stiggins 和 Conklin（1992）將學習目標分為知識目標、思維目標、表現性技能目標、成果目標和情感目標。知識目標包括陳述性知識（如詞匯）、程序性知識（如隱性語法）和概念性知識（如被動語態的概念）。表現性技能目標如英語學習中的大聲流利朗讀。成果目標如學生完成的英語海報、撰寫出來的英語小短文。情感目標如學生的興趣、學習動機和態度。

隨著《歐洲語言共同參考框架》在全球范圍內受廣泛關注以及中國英語語言能力量表的制定，基于行為的語言能力使用視角受到國內專家學者和一線教師的關注，特別是能做表述（can-dostatements）。在這些表述中一般有三個要素，即條件、標準與表現，如能在嘈雜的環境中（如在機場）聽懂廣播，提取有用信息完成相應任務。在本條描述語中還可以看到“提取”這個認知動詞，實際上它反映的就是思維目標。

就思維目標來說，廣為人知的是布魯姆的教育目標分類（如圖2）。但是布魯姆教育目標分類也有一些問題，如它將教育目標分為低階思維和高階思維，存在誤導性，因為在每個層面的認知難度都可能存在很大差異，識記某個內容的難度不一定會亞于領會某個簡單概念。把識記作為最初級的低階思維也容易誤導人們忽視記憶的作用。

圖 2. 布魯姆教育目標分類（改編自 Anderson et al., 2001）

應用應該是所有學習的目標，并與其他目標結合使用，而在此框架中它出現在低階思維，令人費解。鑒于此，應該在思維目標中淡化“低階”和“高階”的概念，構建一種較為“平等”的思維目標框架。Chappuis 和 Stiggins（2017）的思維目標分類（見表1），該分類將思維目標分為六大類別，類別之間不突顯高低之分，但是卻有可能在同一任務中互相依賴，協同發力。

表1. Chappuis & Stiggins（2017）思維目標的常見分類

具體來說，推斷可以是歸納性和演繹性的。在英語測評中常見的有總結文章或文段大意，推測作者意圖、預測人物行為等等。分析如根據詞匯的前綴、后綴和詞根等理解詞匯含義，或者分析文本中關于某個話題的不同看法，找出正面和/或反面證據。

對比如英語測評中常見的 Odd One Out，通過對比比較，挑出不同的內容。分類如英語測評中常見的將詞匯含義根據不同的標準進行歸類。評價如要求學生評判不同來源收集的信息可信度，學生需要提出主張，設定標準，用證據評判信息。整合常見于學生撰寫的英語報告，學生需要閱讀不同的材料，將其中的要素結合起來，用自己的語言表達自己的想法。

評價方法與手段

Brown（2017b）總結了四大類十二種評價類型。這四大類包括選擇應答題（selected response, receptive response, selection item）、建構應答題（constructed response, productive response, supply item）、個人應答（personal response）和個性化應答（individualized response）。

選擇應答題的三種類型為正誤判斷、選擇題和匹配題。建構應答題的三種類型為填空題、簡答題和表現性評價。表現性評價指讓學生寫作、進行口語表達或角色表演等。它能夠模擬現實真實的語言運用，因此能夠彌補客觀題的不良影響。個人應答聚焦學習者，讓學生積極參與評價，運用語言來創造對學生個體來說重要的意義或模仿真實的語言運用。

個人應答包括檔案袋評價、討論會評價和自評/他評。檔案袋評價（portfolio assessment）是收集評價數據的一種方式。它可以記錄學生的成長數據，也可以是學生最佳作品的集合或者是喜歡的閱讀材料集合。例如學生可以選擇自己喜歡的閱讀文本放入檔案袋，文后撰寫評論，在課堂小組活動中為同學介紹這些文本及選擇依據。課后教師可以回收學生檔案袋，基于材料為每位學生設計閱讀理解問題，并讓學生回答這些問題（Brown，2013）。

在討論會評價（conference assessment）中，教師可以與一名或多名同學就語言學習的某個方面進行討論指導，如語法點、某個任務、寫作的某個方面。在這個過程中，學生對自己的優缺點有更加詳細的了解，也對自己的學習進程和策略有更深認識。自評/他評給學生評價自己的作品和同伴作品的機會，這種方式與表現性評價、檔案袋評價和討論會評價都能結合起來使用。它將學生與評價更加緊密地聯系在一起，幫助學生了解學習進程，鼓勵學生自主學習，提高學生的學習動機。

個性化應答更加聚焦學習者個體。評價和反饋均針對學生個體，量體裁衣，能夠準確地檢測學生的學習進程。

個性化應答包含三種評價手段：

（1）連續評價（continuous assessment）通過連續、循環和累積的方式將絕大多數學習活動轉換成評價活動（Puhl，1997）。通過建構反饋圈提高學生的學習動機。在多數情況下，將反饋加入到現有的課堂教學活動中就可能實現連續評價。連續評價的一個例子是在課堂中加入連續反思環節，學生完成某項學習任務后立刻回答一些反思性問題，如哪個方面做得好，哪個方面有待提高，將來可以如何做得更好，為此我要進行哪些訓練等等（Brown，2013）。

（2）差異評價（differentiated assessment）首先考慮學生的學習風格，運用一些量表評定學生的學習風格是視覺型、聽覺型和動覺型，然后為不同風格的學生提供不同的評價方式。例如在考查學生對說明書的理解中，為視覺型的學生提供文本或圖片，為聽覺型的學生讀出說明書，為動覺型的學生提供模擬物品進行實操，這些評價活動有助于提高學生的學習動機。

（3）動態評價(dynamic assessment)源于社會文化理論，關注學生最近發展區(Zone of Proximal Development，簡稱ZPD)，即在干預下學生能夠展現哪些潛能，又稱學習潛能評價(learning potential assessment)，是對在評價過程中，通過評價者和學生的互動，尤其是在有經驗的評價者的幫助下，探索和發現學生潛在發展能力的一系列評價方式的統稱。一個簡單的例子可以是：學生說：“I go toschool yesterday.”老師重復這句話，指出這句話有問題，學生如果沒有意識到這句話的問題，教師可以說：“Go?”以導向動詞時態，如果學生說：“Goed?”教師可以說還有問題，學生繼續努力，如果最終不能產出 went，教師就說應該是：“I went to school yesterday.”通過這一系列互動，教師能夠發現不同學生的ZPD，對于提高學生的學習和學習動機都有促進作用。

應該指出，上文中選擇應答題和建構應答題（除了表現性評價）屬于微觀的具體的評價方法，稱為題項（items），而表現性評價和個體應答以及個性化應答均屬于宏觀的評價手段，是收集數據的方法，稱為評價（assessment）?？傮w上說，宏觀的評價手段能夠規避傳統測試的局限性，帶來良好的反撥作用。個體應答和個性化應答關注學生個體，對學生的動機有良好的促進作用。

學習目標與評價方法和手段的匹配度考量

在明確了學習目標和可供選擇的評價方法與手段后，教師要考慮學習目標與評價方法的匹配問題，以便在課堂評價中能夠實現良好的課堂評價設計。表2是關于學習目標與評價方法和手段的總體匹配情況。

表 2. 學習目標與評價方法的總體匹配度

表格中的數字0代表完全不匹配，1代表部分匹配，2代表匹配較好，3代表匹配非常好。如果要測試知識，如單詞的拼寫，選擇簡答、個人應答和個性化應答都能夠全面考查到。選擇應答題因其非直接測試，不能確保完全測試到知識的各個方面，匹配度為2。而表現性評價因學生有可能避免使用欲測詞匯，沒有獲得相應數據而不能判定學生是否掌握相應的詞匯，故采用表現性評價測試知識不是可靠的做法，匹配度為1。

從思維目標測試看，選擇應答題可以測試許多但是不是所有的思維目標（如評價、整合），因此匹配度為2，簡答題可以測試到所有的思維目標，匹配度為3，表現性評價因任務完成的失敗不能確保是哪個環節出現問題，比如學生整合信息過程中是沒有看懂原文，還是沒有足夠的表達能力，抑或是不具備整合的能力。因此匹配度為2。

個人應答和個性化應答均能夠完整考查思維目標，匹配度為3。表現性技能在比較少的情況下，如請學生將圖片中的某個物品涂成什么顏色，能夠用選擇應答題測試該目標，但是在絕大多數情況下需要通過學生的實際表現，如大聲流利朗讀來評價，因此它與表現性評價、個人應答和個性化應答的匹配度為3。成果目標如學生撰寫出連貫的英語小作文，制作出英語小廣告或海報等只能通過表現性評價、個人應答和個性化應答來實現，匹配度為3。

表3列出了語言測評中的具體技能與評價方法手段的匹配。它能與表2相互輝映，從技能和學習目標方面為教師的課堂評價提供思考方向。在表3中，語言測評技能除了常見的聽、說、讀、寫、詞匯語法以外，還涉及了綜合技能評價，如讀寫結合和聽說結合。讀寫結合近年來受到廣泛關注，研究者們認為它因為與現實中的任務更加接近而有更高的真實性。讀寫結合的常見任務有概要寫作、讀后續寫等。

表 3 評價方法或手段與具體技能的匹配度（改編自 Brown, 2017b）

語音分兩個層面考查，語音音素考查學生處理單個單詞發音的能力，常見的評價內容如最小對立體（ship—sheep）。語篇語音考查的是學生處理自然口語中的韻律的能力，如重讀、連讀、弱化等現象。語用考查的是語言在實際環境中的運用能力，如禮貌用語、言外之意、指代等。我們用 N（not apply）來代表內容與方法之間不匹配，P（passive）代表內容與方法之間只在接受性信息方面匹配，而B（both passive and productive）代表在接受性信息和產出性信息上均匹配。

例如，閱讀中我們可以用正誤判斷（如看一幅圖片，讓學生判斷一句話 This is a cat. 是否正確）、選擇題和匹配題來考查學生是否具備輸入性閱讀能力。而填空題、簡答題以及表格下方的評價方法或手段能考查學生讀懂文本，并產出對文本的理解，因此匹配度為B。

從表3中，我們可以大體看到從簡答題開始到以下各種評價手段均能測試語言技能中的接受性信息和產出性信息。但是在實際決策中，我們要考慮學習目標與方法手段的總體匹配情況（見表2）。例如，我們要評價學生的閱讀理解能力，如果只是考查知識和思維目標，從表2可知，選擇應答題基本能滿足我們的需求，在課堂評價中可以選擇正誤判斷（Which of the statements is true according to the text?）、選擇題（What is the main idea of the text?)、匹配題（Match the scientists with the inventions they have made as described in the text.）。

這些題型便于監考，便于評分，便于反饋，可操作性很強。但是測試的是學生的接受性知識。填空題和簡答題與學習目標匹配度非常高，是更好的選擇，但是它的評分可能有一定的困難，比如測試評價思維能力時，學生答案可能多種多樣，需要基于學生表現進行評分標準的細化。

部分考試，如雅思閱讀，采用控制回答字數來降低評分難度，但是其后果卻使得其能測試的思維目標窄化。表現性評價與學習目標的匹配為1，如讓學生撰寫一篇文章來展示他們對原文的理解，但是如果學生寫出的文章不佳，我們很難確定問題出在哪里，是學生的閱讀理解出現問題，是任務太寬泛，還是學生寫作能力不足，難有定論。

個人應答和個性化應答關注學生，是非常可取的評價方法，但是在具體情境中，如班級大、教師工作量大的情況下，用它們來評價學生的閱讀理解有困難，另外評分也有困難。

結語

本文中，筆者討論了學習目標與評價方法和手段的匹配問題，旨在為一線教師的課堂評價提供一個思路。在討論中我們看到個人應答和個性化應答與學習目標在宏觀上和微觀上的匹配度均很高，而且有助于提高學生的學習動機，在課堂評價中應盡可能多采用。但是我們也需要注意到，進行個人應答和個性化應答對教師的專業發展提出挑戰，比如他們需要對評價方法和手段、語言本身、語言能力的發展路徑、評分標準的制定、反饋的方式等有更深刻的了解，總結起來就是他們需要很高的英語測評素養。而目前研究顯示，教師的測評素養有很大的提升空間。教師可以通過參加工作坊、閱讀相關文獻、參加在職培訓等方法提升測評素養，而相關管理機構也應該投入更大的財力物力幫助一線教師，為他們測評素養的提升提供政策支持和培訓機會。

最后編輯于：2017.12.10 21:10:40

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,983評論 6贊 537
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,772評論 3贊 422
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 176,947評論 0贊 381
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,201評論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,960評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,350評論 1贊 324
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,406評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,549評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,104評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,914評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,089評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,647評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,340評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,753評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,007評論 1贊 289
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,834評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,106評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

課堂評價～學習目標和學習方法匹配

課堂評價～學習目標和學習方法匹配

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

課堂評價～學習目標和學習方法匹配

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频