但有言說，恐無實義: 語言學

顯示具有 語言學_學語言 標籤的文章。顯示所有文章

星期一, 2月 11, 2013

年季の入る

早安。希望這會是個優雅的一年。

起了一大早，啥正書也讀不下，很快地翻完了一本褚士瑩先生寫的新書「給自己的10堂外語課」。從實際歷練的生命體驗取出的語言觀，說起教來卻委婉而無痕，有很多觀點值得推薦。加上前幾天看的「一代宗師」中，那北方與南方語言的交織過招，把漢語給說得那麼活蹦亂跳，也讓我燃起語言世界旅行的夢想。

一旦我們實際進入語言的「現場」，比較可以看出「方言」為何是一個常常被污名化的政治概念。只是因為某時的政治決定，就讓自己將母語貶抑（或是過度美化），實在可惜。我們這一代的許多人，因為語言政治下的自我母語貶損，生命中都有一些缺口；但是那些成年後的去污名化動作，雖然正確，還得政治，一旦心繫「復興」，那口濃厚的責任感，不管它明不明顯，一不小心就把語言的美感弄得煙消雲散。

以前在學校上課講究字正腔圓，有意無意模仿北京官話，一旦出國在外，一聽到台灣國語，耳朵都豎了起來，心理的距離也頓時縮短。這就是語言真實的力量！褚先生這本書裡提到「好朋友」不等於「麻吉」，「buddy」（美）不是「mate」（英）的例子，就是語言與社會文化心理都會沾上邊的好例子。

的確是這樣的，語言學是學科，但學語言不是。不應考慮單以「出路」決定其價值，也不需用「目標」「評量」來恐嚇與挫敗自己。

當你開始愛上語言，遇見的每個人都是老師，隨時隨處都是課堂。

新年新希望，我想快快樂樂學語言。

よい年お迎えください。

星期日, 11月 11, 2012

逼爸的學習

阿默這一年來，除了正規學習的積極投入，對於鐵人三項、Beat-Box 有著外人無法理解（無法澆熄）的熱情。今年他的生日禮物，我們就曾在「鐵人三項輔具」與「第二屆上海杯 B-Box 大賽門票」之間游移。

但說真的，家裡有小孩在練 B-BOX 的家長，一定可以理解生活在其中的「辛苦」。無時無刻的 pv zk bschk pv zk 等不僅是口沫直飛，也像是魔音傳腦。「吵死了」這句話不知來來去去忍住了多少回。

靜下心來想想，其實小孩真的是大人的寶。他們帶來不停的成長與變動，不斷丟出從大人的世代經驗裡，難以理解的問題與興趣，也因而給你不斷的，在心靈與見識上，升級的機會。

我趁著改期中作業頭痛的空檔，Gu 了一下這個現象。發現這和語言學還真有關係。沒想到還有自己的音標，與氣流發音機制分析，甚至還有人對 Beatboxing 作即時 MRI (核磁共振攝影)的研究。

此外，口勢 (articulatory gesture) 作為發音語音學 (articulatory phonetics) 與側語溝通 (paralinguistic communication) 的一個介面，與音樂演出的協作，也是一個有趣的語言與音樂的整合研究題目。原來在音樂領域，這叫做 Multivocalism，像是一些爵士樂的即興表演，常會帶入非詞化的擬聲吟唱 (scat singing)。而 B-BOX 推進了語音與聲響的同步，更是豐富了人類的音樂感知。

真有趣！真的不要帶著成見與分別看待變動的世界。這樣的我們，才更容易進化。

對 B-BOX 毫無概念的人，阿默曾推薦我看一個在 Google 的表演，也推薦給你娛樂一下。

此外，Google translate 的工程師也製作了彩蛋，讓我笑到不行。（點選

連結之後，按下右下角的喇叭圖示，Let's 逼爸！

星期一, 9月 05, 2011

貧窮的恩寵

今天在梵文課學到的一句話，很喜歡。

he dāridrya namas tubhyaṃ siddho'haṃ tvat-prasādataḥ
paśyāmy ahaṃ jagat sarvaṃ na māṃ paśyati kaścana.

हे दारिद्र्या नामस तुभ्यं तुभ्यं ट्वात-प्रसआदत्
पाज़्यआमी अहंजगत सर्वंना मआं पाज़ीयति काज़्कॅना.

貧窮啊，我禮敬您。我因為你的恩寵而具神通之力，我可以見聞世間一切，而世間人論誰也見不著我。

星期三, 8月 10, 2011

習語的樂趣 [1]

某些語言，先不管其他的學習目的，是很可以鍛鍊腦筋與耐性的。梵文就是一例。

我一直很想花些時間做些筆記，看看「語言學知識」與「語言與資訊應用」，到底如何能夠幫助這個語言學習的過程。

外語學習的過程，大概一開始都會先處理文字系統。這裡的參數類型，包括了三大主要文字系統，前兩者表音，後者兼表意。

拼音文字：abcde.
音節文字：あいうえお
意符 -（音節）文字：趙錢孫李周

但是每一個類型，都有各自要注意之處。就大家較熟知的語言，其使用的文字系統，多屬拼音文字。這裡就有幾個要學的東西：

字母筆順（如：英文的 a 怎麼寫；梵文的 अ 怎麼寫）
大小寫
發音
字母順序。（不是所有拼音文字都是 alphabet-based，所以順序也不會是abcd。如梵文是 अ a आ ā इ i ई īउ u）
音符。（如：法文的 les accents 有 ûùàâæéç 等等；德文的 umlaut 有 äöü 等等）
標點符號、省略符號（如法文的 l'apostrophe）、連接符號（法文的 trait d'union）
[羅馬拼音系統] （對於非使用羅馬字的文字系統來說，一開始有時需要羅馬拼音協助）
字母連寫變形。（部分因為發音的因素）

如果是中文的意符音節文字系統，就無法以拼音文字的方式來學。試想，英文的 26 個字母幾天背完，中文常用字就近三千個，總不能背完再學文法。此外，「字」尚可拆解成有限的部件來學習，方便記憶。

星期二, 2月 09, 2010

不花錢學噶瑪蘭語

最近市面上出現了許多不花錢學 * 文的系列。英語之外的語言學習興致，可能已經慢慢提高，連我的高中母校都開始有了德文社。這，和重拾母語風潮一樣，對開展不同文化視野來說，應該都是好事。

其實在台灣，我們是活在一個相當豐富的語言公園裡頭，老實說，運氣好到不行。只是大家對於語言文化資源的意識，以及內蘊其中的經濟利益，還沒很抓得到頭緒。內行人皆知，還不談新住民帶來的語言資源，光光是正體漢字與南島語這兩項資源，就值得說服外國人來台灣唸語言學了 :-)

比方說，台灣原住民的語言，是屬於一個叫做「南島語族」的語言家庭。這是一個涵蓋地球大半洋面地區、在世界上分佈最為廣袤的語言家族，語言總數超過了上千種。雖然台灣是不是南島民族的發源地，學者間尚有爭議，但是幾乎大家都同意，台灣南島語是最接近「原始南島語」的一支。這些活生生，但卻瀕臨消失的語言資源，對於理解人類的語言演化史、初民社會文化，以及語言類型學來說，真的很重要。

哼，不要只會唱語言學高調，先自我批判一下。以我這個宜蘭囝仔為例，「曾了幾次」的某個祖母名字，在族譜上刻意的被留白，小時候聽長輩說是因為她是平埔「番婆」。呵，結果，現在她的後代只會搭噶瑪蘭客運去台北上班 XD

難道，q-em-an tu Raaq, awka=isu supaR sikawma tu rana kebaran（喝了酒你才會講噶瑪蘭的話）。

其實，部落語言很威的。來唸一段看看。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
mai tu kaying 沒有小姐（引自張永利老師的噶瑪蘭語參考語法一書）
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

kebaran, mai tu kay-kaying
噶瑪蘭族沒有小姐

kaying na busus m-autu s-em-asaqay
閩南人的小姐來玩

tantanur-an-ku
我追

sin-sinngut-an-ku qena-rapan-na
聞她的腳印

nianu su-sukir timaikuan
她為什麼不理我呢

星期日, 1月 10, 2010

給她（他）們 py py 手

星期一, 12月 28, 2009

浪花掏盡，一切盡在噗言中

我們的語言到底藏在哪裡？

Brain? Mind? or, the WEB！

利用 Social web 的 APIs，建立社會網路語料庫。

結合社會網路與詞彙網路，

新詞與新意的傳染，得以被追蹤；

語詞的進場與退場機制，得以被預測。

語言學、生物學、社會學，失散多年的兄弟們撐著點，團聚的一天，

就要到了。（趕）

星期二, 9月 01, 2009

Web 2.0 下，我們感覺良好。

我在 TED 上看過 Jonathan Harris 的作品展演，很是驚艷。沒想到他的作品今年也在高雄設計節 (KDF) 國際設計倉中出現。他的才華洋溢，但是吸引我注意的是一個跟語言學有關的計畫，叫做 We Feel Fine 的玩意兒。（首頁的 applet 設計的蠻好玩的）。

簡單說，（其實沒更難了）他們的作法是，每隔兩、三分鐘，用程式自動搜尋各大部落格站台。一旦找到諸如 "I feel..", "I am feeling.." 就記錄整個句子，辨識補語中所謂的 feeling expressions，像是 sad, happy 等。在利用部落格站所提供之訊息，將產生這些語句的作者性別、說出這些語句的地理位置一併抓回，再利用說出語句的時間與當時天氣預報做連結，一個全球動態心情語料庫於焉形成。輔以生動的視覺化技術，已經"可以"回答像是歐洲人是否常常比美國人心情更糟？情人節的時候人們感覺如何？世界上最悲傷的城市？三十歲以下的印度女人現在（幾分鐘前）心情如何？等等。

老話一句，只要量夠大。" It will grow and change as we grow and change."

這樣的作品，揉雜了語料庫語言學、數位美學與設計。雖然不是嚴肅的學術研究，但是卻充滿了想像力。混搭程式設計 (mashup programming)，web 2.0，雲端運算 (cloud computing) -- 把這種正在發生的未來感帶進語言學研究，報考語言所的人數會不會比較多一點 ;-)

星期四, 6月 25, 2009

Who cares about linguistics?

聽完 Hans Rosling 在 TED 的演講，忍不住就用 Google Visualization API 試著實作看看。隨著資料的巨增與可得性，資料的呈現方式也越來越強悍。我選用3個地區6個國家的假想資料，取3個參數 (google 搜尋 "linguistics" 數量，語言期刊書籍出版數量，與語言社群人口數量) 並將時間軸設在2000-2005年之間，跑出來的motion chart 如下。其實更有趣的應該是我們看資料的方式。嗯，如果資料是真實的，夠多，對於社會語言學家應該是一扇有趣的窗口。

說到鉅量，威力很大，但是必須小心看待攸關人文社會的道德議題。比方說，它雖然對於快速建構強健性系統很好用，但是卻容易將邊緣化的東西繼續邊緣化。記得上次在荷蘭開歐盟跨國科研計劃會議時，總主持人曾表達他的憂心。他說，Google 將世界弄扁平了。因為一個重排序的 (科學) 意識型態，容易忽略差異。(問你多久沒去看google 的第十頁之後的搜尋結果了？) 也因為你量少，少到根本沒有成類的意義，沒有成為 support vector 的資格;-p，是不重要的，noise.

這種想法對於人文研究殺很大。

我很想把這件事再多講清楚一點，但是無奈咖啡喝兩杯還是昏昏欲睡。就先玩玩就好了，ㄎ。

星期六, 6月 06, 2009

誰會亂講話

最近語概上到社會語言學時，又跟同學們提到，大家看，連 pidgin (洋涇濱語) 都是 rule-governed！這大概是語言學家在面對如此複雜的人類語言現象時，所能說出的聽起來實在不怎麼了不起但實際上應該有那麼一點了不起的預設。

怎麼沒人問問題？那我來幫大家問問。嗯，總有一些人類的語言現象是找不出規則的吧？企鵝家族 (Pingu) 影片裏面的 Pinguish (or Penguinese) 怎麼樣？

Meck~Meck~

這一系列影片的企鵝語，主要是由一位義大利的 voice artist，Carlo Bonomi 所錄製，可以先聽看看是怎麼回事。

Carlo Bonomi pingu

這，其實說來真的不容易。需要有天份與 Gramelot 方面的訓練。不信你試試看。自己開始計時，看有沒有辦法即興地亂講個十來分鐘的話。你一下子就會發現自己已經混雜了一些正常語句片斷，或是固定間距的重覆一些 sound patterns，特別表現在 intonation 上。

那確切的說，企鵝語的 phonological rules 到底是什麼？

ㄟ，我一直很期待台灣語言學界的新生代，能夠勇敢地開始做一些搞怪題目出來看看 ;-)

星期一, 5月 18, 2009

Voices from Taiwan

根據一項估計，每隔兩週就有一種人類語言在地球上消失。台灣的巴宰語人口，只剩一位 Kim-Giok Phoan 女士。2008 年的美國獨立製片影展 Sundance Film Festival 中曾經放映了一部瀕危語言紀錄短片，現在暫時可以在這裡看到。其中有關於邵語與巴宰語的現狀簡介。不過真的很簡。

問，誰要來替台灣的語言拍紀錄片？

星期一, 3月 23, 2009

語言學的卡通理論

我喜歡 Fromkin 語概教科書的理由之一，是因為在書中作者提供的卡漫，有些直接就一語中的 (應該是一圖中的) ，又能激發學習興趣。不知道有沒有(日本)人在畫語言學概論的漫畫呢？歐美人畫的不知怎麼，少了那麼一點東洋風的炫亂。姑且看之，呵。

(from) Cartoon Theories of Linguistics --The Trouble with NLP

星期日, 1月 18, 2009

原來是寒假到了。

看到前篇部落文的最後一篇留言，覺得很有趣。怕這位朋友沒注意我的回應，就重新發一篇，有興趣的讀者也歡迎進場。

這位匿名朋友，很高興看到您的回應。以下謹提供一些我的粗淺看法，也許可以引起一些好玩的討論。

首先，您提到的「從網路上找到的量化證據，有時候僅能代表語言的實際使用狀況，而不能斬釘截鐵的把它跟內在語感劃上等號。」這洽洽是我比較傾向接受的主張 :-)

我的疑問是始於，我們提的內在語感，到底指的是「誰」的內在語感？如果我們接受語言學研究的整體態度應是 descriptive rather than prescriptive，我們是不是應該不會認為某些人，例如「語言學家」- 儘管她們多麼敏銳 - 才擁有較「好」的語感？

您舉的英文例子，因為我不是 native speaker，難以做 grammaticality judgment。當然以我們之前受過的所謂英語教學文法訓練，的確會覺得是要加上 to (至少在考試的時候 :-))　但是，不否認這一點，到承認我們心中存在著一套所謂「標準語法」之間，恐怕還有很大一段距離。我們得要先要預設正式與非正式的語言用法，（因為實際上正式與非正式之間有許多的複雜性存在），再來還需預設所謂正式的用法才是我們心中的「標準語法」。

那談談中文的例子吧。no gapping? 因為我們不會說：張三吃飯，李四麵。對吧？但，「張三吃牛肉飯，李四牛肉麵。」呢？no type coercion? 但是我卻常聽人說「舒凱的電腦很強。」;-p 好吧，我先承認我不是個厲害的語言學家。但是，到底是誰來決定一個句子是合法的（i.e., 可以這樣說的）呢？(或是誰是厲害的語言學家 ^^)

談到您的其次。
的確在適當的語境下，可能有許多語意訊息是可以被得到的。這也正是為何我們需要鉅量的語言使用證據來參酌。不過，這裡的causative的用法，我覺得正是問題（如果有的話）的關鍵。「兔子追累了獵人了」這句話，剛好是以前我在研究所修syntax 時，老師在課堂上也提過的句子。我記得那時候我很老實地跟老師說，我不會說這樣的句子(型)，關於這裡可能有的使動用法，我也只能事後的理解與「學習」。我還挑戰說，這是不是北美華人，或者是江浙一帶的中文呢（因為我的老師是當時所謂的外省人）？如果這裡有語言的時空區域性的問題，「誰」的中文語感才是「對」的？結果當然是被老師白了好幾眼:-p　現在看到您說「但是，得不到就代表沒有嗎？大多數人的語感，在這種情況之下，恐怕是無法信任的。」我只好再度羞愧，因為我正是那無法被信任的大多數人的一個。

我喜歡您的總之：" 群體使用的量化證據，有時候並不完全可靠。需要引用時，宜慎之。" 我完全同意這個說法。不過，我喜歡話說回來。現在所謂「網路」擷取回來的語料之多元、動態與豐富性恐怕必須比以前多一點關注。我舉個我在corpus linguistics課堂上提過的例子給您參考：（出自Thomas Robb : Google as a Quick 'n Dirty Corpus Tool。有興趣請自行搜尋。)

這篇文章的動機來自以下這句出自Eiken test的英文:

Her wedding dress was very a) beautiful b) gorgeous c ) wonderful

公佈的唯一正確答案是a。教學文法上要怎麼解釋？ok, 一種解釋是因為有些形容詞是non-gradable，例如 unique, 所以呢，comparatives, superlatives, and words like very, extremely should not be used to modify it. 所以你不能說He is a very unique person.而此題 wonderful 可被視為是non-gradable, since it means "full of wonder" and, if something is "full" it is therefore non-gradable. 但是beautiful 不也意味"full of beauty"?　所以作者（儘管自己是native speaker），開始利用google找語料佐證這個用法。假設我們使用"very wonderful" (double quote query)，會找到一大堆這樣的使用。當然我們立即的反應是這可能是由non-native speakers or first graders 說的啊？沒錯，那我們利用google 的site query來查找www.gutenberg.org所收錄的大師經典作品，應該比較可靠吧(您可試試"very wonderful" site:www.gutenberg.org)，出乎意料的結果您可以自行看看。到這裡，您也許會說，簡單的計量並不能證明什麼！沒錯，這是我們需要複雜一點的量化分析的理由。

此外，現在的語料庫概念，恐怕不是Chomsky當年批評的景況。語料的向度，已經拓展到可標記地理、時間、性別、個人習語、各種文體文類、甚至連語音語料都已經可以大量自動擷取。這點請容我以後有空多介紹。就是因為這些多樣性，我們對於所謂的「群體使用的量化證據」，開始可以萌生那麼一點信心。

總之，我希望您不會覺得我是站在反Chomsky或是反對formal approach的立場來討論這個議題。（我還自以為自己算是廣義的formal semanticist ^^）。前篇blog的感觸要表達的精神其實很單純。就是我現在覺得合理的，只是尚未被證明，或者未被說服是錯的。請容我將我的簡單感想摘要如下：

1. 語句合法性判斷在句法分析中有吃重的角色。
2. 語句合法性判斷的根據，應儘可能地參照整體語言社群的使用。語言學家，如同芸芸眾生，都只是語言社群中的一份子。
3. 隨著大規模的計算典範的誕生，基於大量的語料證據來捕捉"整體"語言社群的語言使用樣貌，儘管還是不足，但逐漸地可能可以產生逼近式的貼近。

原來是寒假到了，囉囉唆唆請不吝再糾正我的錯誤。

星期二, 1月 13, 2009

論語言學之三角不戀愛: toward the love triangle of formal, functional and computational linguistics

這次特別用功準備語概期末考的同學們，考完後大概都會或疑惑或咒罵地說上一句：怎麼考成這樣(簡單)？！在文學院的考試，大概很少碰到不用長篇大論，滔滔不絕也沒用的考卷。觀念區辨、語料解析與作圖。就這樣，真的，這就是我覺得語言學入門之處最吸引人的地方。(不過其實說簡單倒不一定，超過九十分以上的抱歉只有兩位呵呵)。

有基本語言敏感度，對於分析與邏輯推理不排斥，相信精簡與細節就是王道的人，很容易就能進入語言學的世界。

不喜歡數學，所以念英語系；不喜歡文學，所以選考語言學組。好像不少人都這麼想。但是進研究所後才發現，現代主流語言學跟數學其實沒什麼兩樣。兜了一大圈，最後只能宣告沒興趣希望人生重新來過。

那老師你呢？為何不繼續人文與哲學之路？還反其道搞什麼計算語言學？有人問道。不好意思我的回答有點情色：因為有人相信可以直探靈魂，而我堅持要先碰肉體。

哈哈。先停在這裡。

話說參加 FOSS，國內的形式語法與語意年度研討會。雖說是 formal，但是主要是 GB 的場子，歐洲較流行的 HPSG, LFG, DG 一篇都沒有，更不用談 CG, TAG(Tree Adjoint Grammar)等在台灣更冷門的 formalism。此次會場因難得有J.Huang 教授助陣，有些研究與對話相當精彩。但是話說回來，要是有 functional 的學者在場，看到討論的語言是如此的不 formal (如："那說的就是說，.... 因為我們是 lexical applicativization，... 會變成 out...")，可能會竊竊私語訕笑；要是有 computational 的學者在場，看到熱烈討論的句子還在於類似"王冕七歲上死了父親"，對於所分析句子的可接受度，不太訴諸群體使用上的量化證據，而傾向相信一己或一小群人之語感，恐怕也會皮麻手癢。(再不好意思一次當場我就寫了程式從網路上找了一堆"反例"句子)。

話說回去，語言學中的 formal enterprise 是宏偉壯觀的，追求衍生機制的努力成果也是很令人激賞。

話說回來又說回去，我們很容易就忘記我們能到那麼高的地方，是因為腳下踩著多少的假設堆疊而上；很容易忘記了在科學研究中，所謂對的東西只是還沒被證明為錯的；很容易不太想去聽懂古人的經驗述明，語言是人文化成的，儘管將她上了手術台作毛髮肢解，還是難找到語言生命與文化交錯經驗的沈澱是啥玩意。

回call。容我暫時做一個中間很多跳躍的結論：-)
計算與量化手段，可以一步一腳印，帶領我們達到一個極為複雜的知識高度。在那裡，我們喜悅、充實地一起享用人類智識發展的樂趣。當準備出於本能的展露自傲與輕狂時，我們才看到無邊無際的人文山景廓然開展在眼前，我們才想起，寫程式的雙手，原來是可以用來寫詩的 . . .

星期四, 12月 11, 2008

只要量夠大：書籍影片版

看到 shuyen 的留言，我再提供一個在此新的計算典範下的另一範例給有心者作參考。

這篇要談的是 Philip Parker 教授。各位可先看紐約時報的這篇報導。這位號稱「地球史上最多產的作家」，在網路書店亞馬遜，可發現他已撰寫超過二十萬本的書籍 - - 請注意，這些都是用電腦程式寫出來的。什麼？有沒有聽錯？！雖然他的用意是在於提供出版界 POD (print on demand) 的新思維，但是他發展出來的內容生產自動化專利 (automated content creation) ，一份 250 頁的 industry forecast report，只不過花了 13 分鍾。

別鬧了，誰會去看他的書啊，你說。那你大概不知道，我們堂堂國立台灣師範大學總圖書館，就買了他 14 本書。(不信邪者請用 Parker, Philip M 作者查詢其他各大圖書館)。以下是他自己的介紹：

與此平行者，其實還有另一種更猛的計算典範，我在博士論文中稱它為漢字知識本體。改天有空再介紹給大家。這個領域應該是由中文電腦之父朱邦復先生最先發展，並應用到語言與影像資訊領域。已傳聞已久即將面市的是"自動圖文系統"(text-to-scene)。也就是說，給電腦一篇古典詩詞或小說，他幫你自動生成一部動畫影片。以下是首部公開的全自動圖文影片《記承天寺夜遊》，全片純由電腦製作，完全未有人力協助。

這世界，會變得怎麼樣子。(廣告：大家趕快來念計算語言學 ;-))

星期三, 12月 10, 2008

只要量夠大：詩歌版

以下摘錄電腦詩人 shukai 創作新詩一首:(只花三秒)

《窗檯下的思念》
http://www.dopoem.com

誰在用老吉他彈奏一曲《夢中的家》
歲月在牆上白鷺鷥看見小時候
猶記得那年我們都還很年幼
而如今琴聲幽幽我的等候你沒聽過

誰在用老吉他彈奏一曲《夢中的家》
秋雨將故事染色結局我看透
窗檯下的古道我牽著你走過
心無片瓦的年頭就連分手都很沉默

只要量夠大：部落文版

一直想找機會紀錄最近一些和語言計量與文本研究有關的心得。(其實應該放在research blog 上的，不過因為應用上具有娛樂性，也許可藉此機會替計算語言學作點宣傳;-))

Extremely Fatigue

It was on like Thursday or Wednesday I don't really remember. I had the thought, in the middle of my spiky moments on Tuesday and Wednesday, that I've probably been on a wrong track in my general efforts, perceptible through this journal, to keep undue hopefulness out of my daily round. I could probably make an educated guess about their ages. The first time, I knew the answer to their little trivia question and called at least 30 times. I immediately called the distributor and canceled it. He called 3 times, each time telling me that he really couldn't get the cab and he's gotten be real late. THE DAY the titles started showing up again, I called again. She stamped and wrote and stamped again in my passport, and then stamped some pieces of paper. I started thinking to myself that it was really more of a courtesy invite and Audoctor wouldn't go and Id be safe to enjoy my friends in a fun atmosphere. I just really don't like people that pretend their time is more valuable than yours. Is this really what I'm supposed to do?

不好猜出，這是一篇完全由程式自動"寫"出的部落格文章吧。給個主題，程式利用網路上大量的資料萃取與拼湊語言片斷，結果還造成頗似意識流的技巧。這是鉅量資料的可怕的地方！它讓AI研究傳統上一些 toy programs 起死回生。不具語言理解能力、單純的 pattern matching，輔以每日以驚人速度成長的語料，已經開始讓人誤以為 machine intelligence 已悄然誕生。人開始需要站在機器的角度去想，理解該怎麼定義？溝通又是什麼意義？

我看了看，這個程式寫得不難。改成中文版，多實驗幾次，加入一些 discourse parameters，要瞞過人的眼睛指日可待。你問我，做這個要幹嘛？嗯，第一好玩嘛，第二跑過一次，保證妳對於人與機器的語言理解與溝通有進一步的體悟。第三呢？至少我覺得可以是一篇 qualified 的計算語言學論文：)

星期日, 11月 09, 2008

打什麼打

差點忘記要幫中研院國際學程兼詞彙語義學的課。先幫中文辭彙語義高難度打個廣告 ;-)

打從上禮拜跟打工時結識的朋友，在打卡時打屁聊天時，就一直對打水跟打糞的時代背景感到興趣。

老爸在悶熱的廚房打著赤膊邊打著蛋邊說，不是我要吹牛，就算是打水漂我也是在我們那一區打出名聲的。你們這代的年輕人，只知道打架、打劫或打人家歪腦筋，盡幹這些事，真不怕哪天被打入十八層地獄。

老媽在旁邊打電話邊打毛線，正熱切討論友愛餐廳打二折，找時間去打牙祭的話題時，竟然還猛然補上一句，老頭兒，打個岔，你剛說的那些單純的鄉下場景現在打著燈籠也找不到啦。

小默回家，氣呼呼的樣子。他說學校剛打完預防針，大夥約好下課打鍾後一起打牌，沒想到所有的牌具都一個調皮的同學打散了。也許是不小心的吧？才不是，那是他早就打好的如意算盤。上次他打縣長杯桌球賽輸我們那組後，他就打定主意做這種事。
真噁。那個人。怎麼了？你不知道，我打個比方。他整天就是在學校說跟他女友打得火熱，又打啵又打砲怎樣的。整天上課打瞌睡，被人家跟老師打小報告，又打死不承認，真是說謊不打草稿。大夥都決定不再跟他打交道。

喂，夠晚了，你 blog 還要打到多久？體貼的老婆雖然還在跟我打冷戰，還是遞來一杯用半打奇異果打出來的果汁。這種感覺就像是熱浪打在身上的溫暖。快去睡了，還有明天記得去打車票，打一把後門的鑰匙，還有腳踏車也要打氣。對了，今天開車時打檔有問題，順便檢查一下，也可以用點數去打蠟美容。好的好的，我跟妳打包票，跟妳打勾勾，我再跟剛上線的阿諾打聲招呼，然後再打坐打個十分鍾就去睡了。

嗯嗯，還能再打什麼？問問那個昨天認識的姓打的先生吧。

星期五, 10月 10, 2008

什麼東西借了不用還

與心默騎單車。

momo: 爸，什麼東西借了不用還？
papa: -=?[$.... 又是腦筋急轉彎的題目喔？
momo: 嗯，可能不算啦
papa: (故作幽默) 有了，煙(戒)了不用還。
momo：很冷ㄟ，那酒也是囉。

好吧，投降。那答案呢？是「過」。

漂亮，感覺又是一個語言學的研究題材。
回家搜尋中研院平衡語料庫，很抱歉，沒有「借過」的語料。
用「借」設過濾關鍵詞「過」，只得一句不相干。

新衣(Na)，所以(Cbb)和(P)李(Nb)員外(Na)借(VD)錢(Na)。過(VCL)了(Di)一(Neu)年(Nf)， 


不甘心，用 gigaword corpus，還是差不多。
大部份是「.... 借_過_錢 ....」。
(至此，上我的語料庫語言學的同學們，我沒騙你們吧，
web as corpus 才是正解)

話說回來，從配價上看，借屬於三價動詞
(其他像給、問、回答、送等)，
直接賓語都是名詞性的東西。不信你看：


難怪想不到，原來也可以「借」一個像「過」
這樣的「事件」。還有別的嗎?
一時想到一些諸如借「抽」一口煙、
借「搭」個便車、借「喝」一口湯、
借「抱」一下 ..咦，
借事件好像真的都不用還的嘛，

默默！默默！答案不只有一個！！

星期一, 2月 18, 2008

偶爾說一些外行話

XX:

很抱歉電話中剛剛談得有些匆促。

關於語言與思維在語言學上的討論，我知道的，也只限於教科書上的介紹。大抵是環繞著所謂的 Sapir-Whorf hypothesis。此假說根據其主張的「強度」不同還有不同的版本。最強的版本 linguistic determinism，主張「語言」決定「思維方式」(感知與思考世界的方式)；較弱的版本 linguistic relativism，則主張「語言」影響「思維方式」。

強版本的證據，可能來自一些早期的田野資料。比方說，南美的土著語言 Piraha 據稱並無超過二以外的數字。有些西方語言學家聲稱去教了很久，當地人還是學不會。但是這些案例對我而言說服力不強，理由在於學習的因素這麼複雜，失敗的原因有可能是沒有誘因（在當地的交易根本不需要），教法教材或教學心理有問題等等。

回到你們雜誌本期關心的雙語教育問題。語言習得 (acquisition) 與學習 (learning) 到底有無「關鍵期」？我的想法是這樣的：

先看看語言學教科書上的關於 critical period 的定義：''a particular time frame during which children have to be exposed to language if the acquisition process is to be fully successful.''

我傾向於接受，母語習得有其「關鍵期」。(不過當然得先定義我們談的是語言的那個層次)。證據就在於 Genie 及 Chelsea 等案例。前者 2-13 歲都沒聽過人話，之後的努力，使得非語言之認知能力相對地正常，但語法與構詞能力仍有問題。如詞序有誤、文法詞綴缺如。後者係被誤診為心智遲緩之聽障幼童。她在三十一歲才開始學語言，後來只學會用 2000 多字，且句法殘缺。但是，這些例子雖然間接地說明了有個 particular time frame，但是也難證明到底幾歲之間才是關鍵期。

至於第二外語學習，有些研究顯示可能有發音學習上的「關鍵期」，但並無其他語言層面之「關鍵期」（語法、語意等等）。將學習環境納入考量，我很可以想像，如果家庭資源豐富（如雙語家庭加上文化優勢），有可能使得雙語學習同時順利進展，使得其第二外語學習好像就如第一語言有「關鍵期」的作用。

比較令人痛苦的是，在台灣，語言習得的關鍵期問題，變得不是一個語言生理或心理之「理論」的科學問題，而是一個「語言社會學」的問題。學者專家們常需要給出一個「有」或「沒有」的答案，給有的，最好附上從幾歲到幾歲，讓補習班好準備；說沒有的，又需要循循善誘，充滿著非學理討論的用心良苦。其實，忽略社會文化因素、學習心理，就算在「關鍵期」內學習，不自然、揠苗助長，過多的期待，一樣學習不好。這道理，很難嗎？

訂閱：文章 (Atom)