星期日, 1月 18, 2009

原來是寒假到了。

看到前篇部落文的最後一篇留言,覺得很有趣。怕這位朋友沒注意我的回應,就重新發一篇,有興趣的讀者也歡迎進場。


這位匿名朋友,很高興看到您的回應。以下謹提供一些我的粗淺看法,也許可以引起一些好玩的討論。

首先,您提到的「從網路上找到的量化證據,有時候僅能代表語言的實際使用狀況,而不能斬釘截鐵的把它跟內在語感劃上等號。」這洽洽是我比較傾向接受的主張 :-)

我的疑問是始於,我們提的內在語感,到底指的是「誰」的內在語感?如果我們接受語言學研究的整體態度應是 descriptive rather than prescriptive,我們是不是應該不會認為某些人,例如「語言學家」- 儘管她們多麼敏銳 - 才擁有較「好」的語感?

您舉的英文例子,因為我不是 native speaker,難以做 grammaticality judgment。當然以我們之前受過的所謂英語教學文法訓練,的確會覺得是要加上 to (至少在考試的時候 :-)) 但是,不否認這一點,到承認我們心中存在著一套所謂「標準語法」之間,恐怕還有很大一段距離。我們得要先要預設正式與非正式的語言用法,(因為實際上正式與非正式之間有許多的複雜性存在),再來還需預設所謂正式的用法才是我們心中的「標準語法」。

那談談中文的例子吧。no gapping? 因為我們不會說:張三吃飯,李四麵。對吧?但,「張三吃牛肉飯,李四牛肉麵。」呢?no type coercion? 但是我卻常聽人說「舒凱的電腦很強。」;-p 好吧,我先承認我不是個厲害的語言學家。但是,到底是誰來決定一個句子是合法的(i.e., 可以這樣說的)呢?(或是誰是厲害的語言學家 ^^)

談到您的其次。
的確在適當的語境下,可能有許多語意訊息是可以被得到的。這也正是為何我們需要鉅量的語言使用證據來參酌。不過,這裡的causative的用法,我覺得正是問題(如果有的話)的關鍵。「兔子追累了獵人了」這句話,剛好是以前我在研究所修syntax 時,老師在課堂上也提過的句子。我記得那時候我很老實地跟老師說,我不會說這樣的句子(型),關於這裡可能有的使動用法,我也只能事後的理解與「學習」。我還挑戰說,這是不是北美華人,或者是江浙一帶的中文呢(因為我的老師是當時所謂的外省人)?如果這裡有語言的時空區域性的問題,「誰」的中文語感才是「對」的?結果當然是被老師白了好幾眼:-p 現在看到您說「但是,得不到就代表沒有嗎?大多數人的語感,在這種情況之下,恐怕是無法信任的。」我只好再度羞愧,因為我正是那無法被信任的大多數人的一個。

我喜歡您的總之:" 群體使用的量化證據,有時候並不完全可靠。需要引用時,宜慎之。" 我完全同意這個說法。不過,我喜歡話說回來。現在所謂「網路」擷取回來的語料之多元、動態與豐富性恐怕必須比以前多一點關注。我舉個我在corpus linguistics課堂上提過的例子給您參考:(出自Thomas Robb : Google as a Quick 'n Dirty Corpus Tool。有興趣請自行搜尋。)

這篇文章的動機來自以下這句出自Eiken test的英文:

Her wedding dress was very a) beautiful b) gorgeous c ) wonderful

公佈的唯一正確答案是a。教學文法上要怎麼解釋?ok, 一種解釋是因為有些形容詞是non-gradable,例如 unique, 所以呢,comparatives, superlatives, and words like very, extremely should not be used to modify it. 所以你不能說He is a very unique person.而此題 wonderful 可被視為是non-gradable, since it means "full of wonder" and, if something is "full" it is therefore non-gradable. 但是beautiful 不也意味"full of beauty"? 所以作者(儘管自己是native speaker),開始利用google找語料佐證這個用法。假設我們使用"very wonderful" (double quote query),會找到一大堆這樣的使用。當然我們立即的反應是這可能是由non-native speakers or first graders 說的啊?沒錯,那我們利用google 的site query來查找www.gutenberg.org所收錄的大師經典作品,應該比較可靠吧(您可試試"very wonderful" site:www.gutenberg.org),出乎意料的結果您可以自行看看。到這裡,您也許會說,簡單的計量並不能證明什麼!沒錯,這是我們需要複雜一點的量化分析的理由。

此外,現在的語料庫概念,恐怕不是Chomsky當年批評的景況。語料的向度,已經拓展到可標記地理、時間、性別、個人習語、各種文體文類、甚至連語音語料都已經可以大量自動擷取。這點請容我以後有空多介紹。就是因為這些多樣性,我們對於所謂的「群體使用的量化證據」,開始可以萌生那麼一點信心。

總之,我希望您不會覺得我是站在反Chomsky或是反對formal approach的立場來討論這個議題。(我還自以為自己算是廣義的formal semanticist ^^)。前篇blog的感觸要表達的精神其實很單純。就是我現在覺得合理的,只是尚未被證明,或者未被說服是錯的。請容我將我的簡單感想摘要如下:

1. 語句合法性判斷在句法分析中有吃重的角色。
2. 語句合法性判斷的根據,應儘可能地參照整體語言社群的使用。語言學家,如同芸芸眾生,都只是語言社群中的一份子。
3. 隨著大規模的計算典範的誕生,基於大量的語料證據來捕捉"整體"語言社群的語言使用樣貌,儘管還是不足,但逐漸地可能可以產生逼近式的貼近。

原來是寒假到了,囉囉唆唆請不吝再糾正我的錯誤。

星期三, 1月 14, 2009

心的命名學

剛從 NoNo 的慶生晚會回來,幼兒園的老師們希望我與大家作些分享,並問道取名為心諾的原因。呃,就希望他用心承諾自己的一生阿,也期許作為家長的我們不要忘記對他來到這個世界的承諾。我是一臉嚴肅啦,不過實在是胡謅一通,自己都不知道在扯什麼。

那到底是怎麼取名心默與心諾呢?其實當年是一個人負責一個字的。我這部份呢,因為看到徐進夫翻譯鈴木大拙的禪學系列時提到,「心」是中文之中最難翻譯的一個字。覺得當成名字的一部分還蠻炫的,就這樣。

至於「默」,則是看到這句話「多言多慮,轉不相應;絕言絕慮,無處不通。」後就決定下來。「諾」呢?那是因為有人問中國偉大禪師趙州和尚:「如何是(究極的)一句?」他的回答就是「諾!」,很酷。

看到這裡,默諾的娘一定會笑著要來拆台。哪是這樣!真相是懷 momo 時,有次一起去看電影,不斷在肚子裡作怪,突有小"魔"鬼之感,就取其小名為 momo, 亦剛好與一本好看的德語小說主角同名,挺不錯的。至於 nono ? 那更簡單,m 之後不就是 n 嗎?

好吧好吧,其實真相是,本人先堅持「心」之後,早就備好關於各種不同的「心組合」的詮釋。謀的也不過是個有點水準的博學父親形象。

最後重點是,如果有人還需要心 * 及其詮解,歡迎免費取用 ~_^

星期二, 1月 13, 2009

論語言學之三角不戀愛: toward the love triangle of formal, functional and computational linguistics

這次特別用功準備語概期末考的同學們,考完後大概都會或疑惑或咒罵地說上一句:怎麼考成這樣(簡單)?!在文學院的考試,大概很少碰到不用長篇大論,滔滔不絕也沒用的考卷。觀念區辨、語料解析與作圖。就這樣,真的,這就是我覺得語言學入門之處最吸引人的地方。(不過其實說簡單倒不一定,超過九十分以上的抱歉只有兩位 呵呵)。

有基本語言敏感度,對於分析與邏輯推理不排斥,相信精簡與細節就是王道的人,很容易就能進入語言學的世界。

不喜歡數學,所以念英語系;不喜歡文學,所以選考語言學組。好像不少人都這麼想。但是進研究所後才發現,現代主流語言學跟數學其實沒什麼兩樣。兜了一大圈,最後只能宣告沒興趣希望人生重新來過。

那老師你呢?為何不繼續人文與哲學之路?還反其道搞什麼計算語言學?有人問道。不好意思我的回答有點情色:因為有人相信可以直探靈魂,而我堅持要先碰肉體。

哈哈。先停在這裡。

話說參加 FOSS,國內的形式語法與語意年度研討會。雖說是 formal,但是主要是 GB 的場子,歐洲較流行的 HPSG, LFG, DG 一篇都沒有,更不用談 CG, TAG(Tree Adjoint Grammar)等在台灣更冷門的 formalism。此次會場因難得有J.Huang 教授助陣,有些研究與對話相當精彩。但是話說回來,要是有 functional 的學者在場,看到討論的語言是如此的不 formal (如:"那說的就是說,.... 因為我們是 lexical applicativization,... 會變成 out..."),可能會竊竊私語訕笑;要是有 computational 的學者在場,看到熱烈討論的句子還在於類似"王冕七歲上死了父親",對於所分析句子的可接受度,不太訴諸群體使用上的量化證據,而傾向相信一己或一小群人之語感,恐怕也會皮麻手癢。(再不好意思一次當場我就寫了程式從網路上找了一堆"反例"句子)。

話說回去,語言學中的 formal enterprise 是宏偉壯觀的,追求衍生機制的努力成果也是很令人激賞。

話說回來又說回去,我們很容易就忘記我們能到那麼高的地方,是因為腳下踩著多少的假設堆疊而上;很容易忘記了在科學研究中,所謂對的東西只是還沒被證明為錯的;很容易不太想去聽懂古人的經驗述明,語言是人文化成的,儘管將她上了手術台作毛髮肢解,還是難找到語言生命與文化交錯經驗的沈澱是啥玩意。

回call。容我暫時做一個中間很多跳躍的結論:-)
計算與量化手段,可以一步一腳印,帶領我們達到一個極為複雜的知識高度。在那裡,我們喜悅、充實地一起享用人類智識發展的樂趣。當準備出於本能的展露自傲與輕狂時,我們才看到無邊無際的人文山景廓然開展在眼前,我們才想起,寫程式的雙手,原來是可以用來寫詩的 . . .

星期三, 1月 07, 2009

沒人做,我做。

沒有聽過人棄我取是通往天堂的捷徑。對吧。
我來走走看。





後記。
心情低沈時,需要一種錯亂式的安慰。比較可以以毒攻毒。謝啦,老舒與小兜。

星期四, 1月 01, 2009

這是個借多還少的時代 ;-)

最近在整理一份語言學家的 Google 密技。以下是用 google trends 「借,還」的結果。Hmm, 的確借多還少是常態,但,有沒有誰來解釋一下,台灣人怎麼會比較愛還 ;-)


星期日, 12月 21, 2008

good-looking professors get higher teaching evaluation scores?

"It was God who made me so beautiful. If I weren't, then I'd be a teacher."
-- Supermodel Linda Evangelista

前一陣子導生聚時,有人說老師你好像很喜歡有格子狀的衣服喔(還是你只有那幾件;-))

這件事我還真從來沒想過。打從學生時代起,也許是省錢,加上覺得去反叛時尚價值是哲學家的天職 (不過後來才發現許多當代法國男性思想家穿著可潮得很呢),根本沒注意自己在穿什麼,可說是完全沒有穿著美學上的修養。大半時候甚至連應隨天氣變化加減衣物這件事都不關心,更不用提如何搭配與拿捏衣著的顏色、材質來美化體態,或是展現個人風格。

剛剛出統計習題時看到一個教育經濟學的研究 BEAUTY IN THE CLASSROOM: INSTRUCTOR'S PULCHRITUDE AND PUTATIVE PEDAGOGICAL PRODUCTIVITY,
ABSTRACT
Adjusted for many other determinants, beauty affects earnings; but does it lead directly to the differences in productivity that we believe generate earnings differences? We take a large sample of student instructional ratings for a group of university teachers and acquire six independent measures of their beauty, and a number of other descriptors of them and their classes. Instructors who are viewed as better looking receive higher instructional ratings, with the impact of a move from the 10th to the 90th percentile of beauty being substantial. This impact exists within university departments and even within particular courses, and is larger for male than for female instructors. Disentangling whether this outcome represents productivity or discrimination is, as with the issue generally, probably impossible.



阿你不是說過現在的老師跟演員沒什麼不同嗎?果然。呵呵,下學期是不是要染個紫色的頭髮來嚇嚇大家 ;-)

星期三, 12月 17, 2008

學者風範

前些日子參加語言學學會會員大會,有緣聽到湯廷池教授的演說,感到相當的親切。倒不是因為曾跟湯老師一樣有修習法律的經驗,而是在他徐徐道來的生命回顧中,展現出來的,那種對知識追求的單純興趣、對知識傳播的熱情投入。

最後他說,".... 現在,就是把自己當成回收資源讓大家再利用,最後呢,回歸大地的懷抱。" 何等鏗、鏘、有、力!

星期四, 12月 11, 2008

只要量夠大:書籍影片版

看到 shuyen 的留言,我再提供一個在此新的計算典範下的另一範例給有心者作參考。

這篇要談的是 Philip Parker 教授。各位可先看紐約時報的這篇報導。這位號稱「地球史上最多產的作家」,在網路書店亞馬遜,可發現他已撰寫超過二十萬本的書籍 - - 請注意,這些都是用電腦程式寫出來的。什麼?有沒有聽錯?!雖然他的用意是在於提供出版界 POD (print on demand) 的新思維,但是他發展出來的內容生產自動化專利 (automated content creation) ,一份 250 頁的 industry forecast report,只不過花了 13 分鍾。

別鬧了,誰會去看他的書啊,你說。那你大概不知道,我們堂堂國立台灣師範大學總圖書館,就買了他 14 本書。(不信邪者請用 Parker, Philip M 作者查詢其他各大圖書館)。以下是他自己的介紹:





與此平行者,其實還有另一種更猛的計算典範,我在博士論文中稱它為漢字知識本體。改天有空再介紹給大家。這個領域應該是由中文電腦之父朱邦復先生最先發展,並應用到語言與影像資訊領域。已傳聞已久即將面市的是"自動圖文系統"(text-to-scene)。也就是說,給電腦一篇古典詩詞或小說,他幫你自動生成一部動畫影片。以下是首部公開的全自動圖文影片《記承天寺夜遊》,全片純由電腦製作,完全未有人力協助。




這世界,會變得怎麼樣子。(廣告:大家趕快來念計算語言學 ;-))