若想學好外語,成功的秘訣不外乎多聽、多寫、多講及多讀。初學者在建立閱讀能力時,往往要看大量文本(text),才足以打好基礎,繼而循序漸進地深入學習。有學者指出,依照用家程度挑選合適文本是很重要的,否則容易事倍功半,甚至半途而廢。現時市場上雖已推出文本推薦系統(text recommendation system)提供線上不同種類的文本,但仍存在不足之處,而近年一項有關文本推薦系統的研究,正好彌補不足。
一直以來,研習語言尤其是訓練閱讀理解能力,定要按學習對象而選擇深淺程度恰當的文本,以至讀本(reader)。傳統兒童外語學習多選用分級讀本,如牛津或企鵝出版集團的分級故事書,用家可按自己所需找尋適合的讀本來看。
然而,香港城市大學人文社會科學院翻譯及語言學系副教授李思源博士認為,分級讀本有其限制。第一,因需花錢聘請專家替讀本做評估和分級,故提高了製作成本,難於短期內出版大量新讀本,以致文本數量有限;第二,若文本內容題材不夠廣泛及個人化,譬如大部分內容均為童話故事,便未必能迎合所有讀者的興趣。
現有文本推薦系統不足之處
過往研究工作圍繞計算機科學及自然語言處理的李博士續說,上述有關分級讀本的限制,促使一些專家研發出文本推薦系統,可從網上取得文本,然後經由該系統評估分為不同等級,並隨網絡資源增加而持續擴充文本數量。
「不過,此系統亦存在不足之處。首先,不同國家或地區的出版商或教育部門自行制定出來的分級制度各異,用家未必能準確揀選適合自己的文本。其次,分級制度不一定很仔細,例如只分成初、中、高3級的話,一位介乎於初級和中級之間的用家,便難以作出決定。」
專家在介定文本的等級時會運用某一個標準來衡量生字難度,但一個生字的深淺程度,往往取決於用家的背景,例如日本人學習中文,因其早有漢字基礎,可能比其他人更易掌握。又例如具醫學知識的用家在閱讀有關醫療的文本時,比沒有相關學識的用家較易理解文意,所以文本適合與否也因人而異。
此外,系統按電腦替文本自動分級,欠缺清晰的分級原則及指引,透明度低,難以給予用家信心。結果,用家選取了太淺易的文本學不到更深的生字,太艱深的則不符合進度,以致學習興趣大打折扣。
按生字密度推薦文本
為改善以上問題,李博士的團隊進行了一項題為 「個人化及自我調整文本推薦」研究,並於去年公布研究成果。團隊提出新方法,根據生字密度推薦文本。此方法最大特點是較為個人化,用家可決定甚麼生字密度最適合自己,如打算消閒閱讀,可選只有10%生字密度的文本,如希望進行學術性閱讀,則可選20%生字密度。
新方法以百分率來推薦文本,比級更為細微精準;其次,由於採用生字密度作基礎,消除了不同出版商或區域在分級制度上的差異問題,全球各地的用家均容易明白;第三,新方法利用學習者模型評估生字知識,基於用家的閱讀歷史,對不同用家進行不同評估。對一位閱讀能力較高的用家來說,某文本的生字密度也許僅為10%,但同一文本在程度較低者眼中,便有較高的生字密度。換言之,每位用家都有其個人化文本推薦清單,同時學習者模型可按學習進度而自我調整。
透明度高但仍待改良
由於新方法會記錄用家閱讀生字的情況,不斷推薦新文本,並持續更新學習者模型,所以系統預測下篇文本的難度就會更準確,如某篇生字密度為10%的文本,經用家半年學習後,生字密度可能下降至5%,系統即會推薦較深的文本給用家。
李博士補充說:「系統的準確度視乎用家向系統報告的頻率,也牽涉自然語言處理的技術,意思是藉機器學習估計用家懂不懂某生字。舉個例子,假如某用家多看經濟方面的文本後,系統自會評估經濟領域的生字對該用家來說不是很深。」自然語言處理技術能利用龐大的語料庫,透過大數據判斷生字的深淺及出現頻率。一般來說,某生字出現得越多則代表越淺易,若用家認識很多出現次數較少的生字,系統或視該用家為進階學習者。
新方法另一好處是更客觀及高透明度。由於文本推薦的基礎是生字密度,若用家不同意系統將某字詞視為生字,他可向系統報告,讓系統更新及調整。
談及研究結論,李博士表示,採用新方法可推薦一些難度更配合用家實際需要的文本,但系統仍有不足的地方:「此系統只考慮生字密度來決定文本是否困難,未有顧及其他因素如句子結構、語法、語意、主題的深淺程度。我們暫沒有相關實體產品供大眾使用,希望將來有成品後,可取得更多用家回饋。長遠而言,期望日後新系統能以應用程式的形式供大家進行自學,讓學習外語變得更靈活普及。」