文/ 文心說
不知道你有沒有過這樣的經歷:好不容易背下一堆單詞,寫作時迫不及待地用出來,而發下來的批改卻被打上了幾個大大的紅叉。
你問老師,憑什么說我錯?
老師頭也不抬地說,這個詞根本不是這么用的。
那一瞬間,你突然很難過,辛辛苦苦背了這么多單詞,可自己根本就不會用。
然而,有這樣一個工具、一種方法,能讓你迅速學會一個單詞最為地道的表達方式。事不宜遲,讓我們趕緊來看看這個神奇的工具——語料庫吧。
什么是語料庫?
也許你是第一次聽說這個詞,也許你曾在不少地方邂逅這個詞,卻從未了解過它。不管怎樣,今天,你都可以和它來一個親密接觸了。
讓我們先來看一下維基百科上的解釋:
語料庫一詞在語言學上意指大量的文本(text),通常經過整理,具有既定格式與標記;事實上,語料庫英文 “text corpus” 的含義即為 “body of text”。
簡單來說,語料庫就是一個存儲語言數據的地方。
語料庫分為動態和靜態兩種,動態語料庫指里面的資料會不斷更新,而靜態語料庫則不會。語料庫里收集的不僅僅是書面用語,還包含口語化語言,如演講、采訪等。
目前比較完善的語料庫多為英語單語語料庫,意思是只搜集了英文文本的語料庫。今天我們的重點也在英語語料庫上。
語料庫可以很大,也可以很小。小的語料庫通常為了一些專業化的研究,而大的則有許多用途。目前可用英語語料庫中,最龐大的所搜集的文本單詞量大于5億。可見里面有多少值得研究、學習的材料。
語料庫有什么用?
語料庫的最初建立,是為了研究語言,因此它被廣泛應用于語言學各領域。然而,漸漸地,人們發現,它對于語言學習同樣非常有幫助。因此,越來越多的語言教學者開始將語料庫應用于教學。
我們不是教學者,但仍可以學習使用語料庫——它將大大提升我們的學習效率。
以個人經驗而言,語料庫對于英語學習最有用的幾方面在于:
1. 學習單詞用法
2. 辨析近義詞
3. 學習介詞用法
4. 背單詞
接下來,我會一一講解運用語料庫進行以上四種學習的方法。
不過,在此之前,我們需要了解一下,哪些語料庫可以用?
如何找到合適的語料庫?
目前,可供大家免費使用的大型語料庫并不多,如果需要購買語料庫的使用權限可不便宜。在這里,推薦兩個可免費使用一定次數的大型語料庫:
The Corpus of Contemporary American English (COCA)
The British National Corpora (BNC)
以上兩種是不限領域的大型語料庫,也是我做研究時最常使用的兩種。需要注意的是,注冊后,根據賬號使用者的資歷,每天每個賬號可搜索次數有限,如果真的有必要可申請多個賬號。
另外,為了不浪費搜索次數,每次搜索完可將結果先保存下來。
除了現成的語料庫以外,我們還可以使用語料庫代替品,或者自建語料庫。這些在以后的文章中再作為重點講解。
運用語料庫進行學習
接下來,我們將學習語料庫最簡單的幾種操作方式,幫助我們高效學英語。舉例中使用的是COCA。
1. 學習單詞的地道用法
比方說,我們背了一個新單詞 military,我們想知道這個單詞在地道表達中該如何使用。這時,我們只需要輸入單詞,點擊搜索,查詢結果即可。
在Frequency一欄,我們可以看到這個詞的使用頻率,這個功能在這里不算重要。我們重點看的是Context一欄。這里展示出來的是句子的一部分,我們可以點擊每一行 “context” 的位置,查看完整段落:
同時,你還能看到這段文本的來源。
如果你覺得這樣看有些不方便,那有一個更加直觀的方式。
來到搜索頁面,點擊左側搜索欄上方的 KWIC (Keyword in Context),這時你將得到一個五顏六色的表格:
這個表格可就大有用處了。除了像上文一樣,你可以查看完整文本,網站還自動將不同詞性的單詞標注上了不同顏色。于是我們可以看到,用在military這個單詞后面的,一般是名詞(藍色方框)。
這個功能對于military這個單詞來說可能不那么重要,但對于一些更高級、更具迷惑性的單詞來說,就十分實用了。
如果你還想了解得更多,例如這個單詞通常用在口語中還是書面語中,你可以返回搜索界面,點擊 “Chart” 搜索。
這時,你就能看到這個單詞在各種體裁,甚至各個年代的使用頻率。
我們來看兩個對比非常鮮明的詞:talk,communication
著重看spoken和academic兩欄,我們就能輕易判斷出,哪個詞是口語化表達,哪個詞是書面用語。這樣,寫作文的時候我們就能盡量避免使用口語化詞匯,而日常交流時,也就別勉強使用那些文縐縐的單詞了。
有空就拿著生詞表來這兒查一查,地道的單詞用法就在不經意間被你一一收入懷中了,說不定還能順帶提高你的寫作能力。
2. 辨析近義詞
近義詞的辨析不僅是英語學習中的難點,也常常作為各大考試的考點。很多時候,我們查詞典查了很久,還是沒能弄清楚兩個單詞具體的差別。這時,語料庫便可以派上用場了。
舉兩個最簡單的例子:tall vs. high
這兩個單詞翻譯為中文都可譯作“高”,然而此高非彼高,英語中幾乎沒有真正意義上的同義詞。
相信不少人知道這兩個單詞的區別,不過,如果需要讓你將它們的區別總結一下,教給學生,你有信心嗎?不妨還是先用語料庫來學習一下吧。
我們使用的是上文提到的KWIC搜索方式,對兩個單詞分別進行搜索:
這兩個詞都是形容詞,用來修飾名詞,因此我們著重看單詞右側藍色加框的詞匯(這些是名詞)。雖然截屏中只能看到很小一部分結果,但我們已經能夠得出初步結論:
Tall后面加的詞語有building, tower, editor, fence, door等等,都是具體名詞;而High后面常跟attendance, blood pressure, capacity, contrast, cost等抽象名詞。
有學者曾對這兩個詞做過更加專業的語料庫數據分析,結果顯示,在BNC語料庫中,tall與high的使用比率約為1:9,也就是說high這個詞更常用。而在high的100個隨機例子中,31個與“測量事物”有關,例如海拔等,而58個與抽象名詞相關,如質量、頻率等。
當然,我們不需要做如此專業的分析,但語料庫的確能夠在我們對兩個近義詞的使用很不確定的情況下,作為字典的補充材料,為我們提供更真實的數據。
3. 學習介詞用法
介詞是很多人英語學習道路上的攔路虎。記得中學時,一看到題目和介詞有關,便會馬上提高警惕。那么,我們該如何借助語料庫,解決介詞搭配的問題呢?
首先我們要了解一個概念:collocation,詞的搭配。意思是一個單詞通常與哪些詞語搭配在一起使用。
接下來,我們就可以使用搜索欄中還未使用過的“collocates”一欄了。
舉個例子,我們想學習put這個詞的介詞搭配。
首先,我們要選擇Collocates這一欄(右側可以看到對collocates的解釋);接下來,我們輸入單詞put;下一步很重要,我們需要在下一格中選擇prep.ALL這一欄,這是網站自定義的詞性,選擇以后,我們搜索出來的就只有介詞(preposition)的結果了。
在搜索之前,我們還看到了一排數字,這一排數字的意思是,你的搜索范圍控制在這個單詞左邊、或右邊的幾個詞以內。例如我選擇了左邊0,右邊1,這樣,網頁只會幫我統計出 "put+介詞" 的搜索結果,不會顯示 "介詞+put" 或者 "put+其他成分+介詞" 的結果。
然后我們就能看到結果了:
這就是put最常見的介詞搭配,想看具體用法,還可以繼續點進去研究:
那我們再來看看,如果我選擇了搜索右邊三個詞,會有什么結果呢?
這時再點進去,你會發現,結果中的介詞并不一定是緊跟動詞的了:
于是,根據詞匯的不同規律,我們就可以自由控制自己的搜索范圍,進行搜索、學習了。
4. 背單詞
如果你耐心地看到了這里,你將會收到一份高效背單詞的秘訣。
由于語料庫搜集了歷年來的英語材料,可以說幫你網羅了所有英語刊物、演講、訪問等。因此,這里的高頻詞就是真正英語使用中的高頻詞。
你不必再擔心 “背這么多單詞是否用得上”,更不必費盡心思挑選所謂權威的詞書。
COCA的詞匯覆蓋率非常廣,背完了20000高頻詞,已經不需要再去專門記憶GRE、GMAT等詞匯了。語料庫官方提供付費的詞頻表下載,網絡上有各路大神總結出來的COCA5000、7000、10000、20000等詞匯表,扇貝、歐路詞典上也能直接搜索到相關詞書。在這里,我只介紹一下如何使用這些詞匯。
如果不使用app,又不愿意付費,通常你得到的只是一個詞匯表,連釋義也沒有。
這時,你可以借助一些能夠自主導入單詞表的應用,如ANKI,將詞匯全部導入。但我不建議大家直接使用app自帶的釋義功能,而是自己查找一遍,查詞的過程也是學習的過程。特別是對于基礎一般的朋友們來說,如果能將5000高頻詞熟練掌握,英語水平會有一個質的飛躍。
在背單詞過程中,我們還可以時不時使用語料庫進行搜索,結合上文提到的三種方法,學習高頻詞匯的多種搭配與表達。
當然,如果你下載了官方資料,得到的詞頻表中不僅有詞匯,還有高頻搭配總結,相當于收獲了一本最地道的搭配詞典。
語料庫還有許多更為強大的功能,例如學習翻譯、研究特定文體的文本等,甚至可以間接教我們寫作、創作歌詞。
如果你還想了解更多,或者也許你就是語料庫使用的大牛,歡迎留言分享。