如上文所述,我們希望能從語料中了解,家長討論幼兒園時都會提到、考慮哪些條件。
但殊不知,比起一般的數據資料,每一列或每個欄位的數值都很純粹,透過各種統計、計算與比對,就可以看見趨勢或權重(但要小心如何選取基準點和詮釋的視角),這些「數字」都是比較好想像的。——但「語言」不一樣。
論壇資料中,除了點閱熱度和發文日期,標題、內文⋯⋯這些語料的探勘與分析,就像是挖礦、採礦的精密工程,即便文字的內容差不多,但語句字詞調換、交錯排列,就可以變成完全不一樣的意思。只要稍不小心,就可能會漏掉重要的發現。(過程的的 OS:麻煩!又難!比單純的數字麻煩太多了!!)
儘管有過不少挫折,但卻還是鍾情的覺得,哇,語料探勘真的是博大精深的學問。製作專題時程很長,在過程中也和關心資料的朋友談起這件事,都希望更多媒體也可以投入文字探勘的調查與發現,讓語料研究變成像是過去我們熟知的數字統計科學一樣,定錨出更多研究語料的路線與方式。
回歸正題,原本,我們透過 Jieba 斷詞函式庫 進行斷詞後,希望再透過自定義主題,歸類關鍵字,再找出提及關鍵字的所有文章,但為了避免處理太多單純斷詞之後產生的一般常用詞,因此,後來才以 TF-IDF 的方式,過濾常見單詞,保留重要單詞,再計算每篇文關鍵單詞的重複出現次數,抓取出熱詞,並進行後續的分析。
我們在論壇的分析和訪談中,除了一些有寫在報導裡的發現外,更重要的是了解:家長只是在一次次不同條件的權衡下,做出最好的選擇而已(而這些權衡有時是很難被簡單評價好壞的)。 例如,熱詞討論文章量中,可以看出「現實條件」和「教育理想」不同條件都有其支持者,有些支持者也並不全然互斥;又像是英格蘭幼兒園的家長 W,就在考量價格、教育條件、交通等條件後,選擇留在英格蘭。
家長好不容易在有限資源下做出選擇,但是若這家幼兒園違規,幼生和家長也一起受害。我們希望能帶讀者共感家長的兩難,以及釐清政府應該做的是保障家長的選擇,因此,我們在專題的一開始設置了選擇理想幼兒園的小互動。
這個互動,是希望可以讓讀者從「為自己做選擇」的角度出發,挑選幼兒園,並測驗出自己和家長會考量的條件,有多大的差異。
為什麼會把互動設計成「為自己做選擇」,而非「為孩子做選擇」呢?主要原因之一,是因為不一定每個讀者是育兒家長,但許多人可能都待過幼兒園;其二,也是希望大家跳脫更多既有框架,從自己童年的視角出發,並做出選擇。
我們也曾經想過各種互動情境,例如透過岔路情境,測驗大家在不同條件下會做什麼選擇的遊戲,或是像扭蛋機,扭出不同條件的幼兒園,最後為了符合讓讀者回到童年、上幼稚園的感覺,選擇了讓讀者把優先理想條件塞進書包,一齊上學去。