顯示具有 數位誘惑與抗拒 標籤的文章。 顯示所有文章
顯示具有 數位誘惑與抗拒 標籤的文章。 顯示所有文章

星期二, 9月 01, 2009

Web 2.0 下,我們感覺良好。

我在 TED 上看過 Jonathan Harris 的作品展演,很是驚艷。沒想到他的作品今年也在高雄設計節 (KDF) 國際設計倉中出現。他的才華洋溢,但是吸引我注意的是一個跟語言學有關的計畫,叫做 We Feel Fine 的玩意兒。(首頁的 applet 設計的蠻好玩的)。

簡單說,(其實沒更難了)他們的作法是,每隔兩、三分鐘,用程式自動搜尋各大部落格站台。一旦找到諸如 "I feel..", "I am feeling.." 就記錄整個句子,辨識補語中所謂的 feeling expressions,像是 sad, happy 等。在利用部落格站所提供之訊息,將產生這些語句的作者性別、說出這些語句的地理位置一併抓回,再利用說出語句的時間與當時天氣預報做連結,一個全球動態心情語料庫於焉形成。輔以生動的視覺化技術,已經"可以"回答像是歐洲人是否常常比美國人心情更糟?情人節的時候人們感覺如何?世界上最悲傷的城市?三十歲以下的印度女人現在(幾分鐘前)心情如何?等等。

老話一句,只要量夠大。" It will grow and change as we grow and change."




























這樣的作品,揉雜了語料庫語言學、數位美學與設計。雖然不是嚴肅的學術研究,但是卻充滿了想像力。混搭程式設計 (mashup programming),web 2.0,雲端運算 (cloud computing) -- 把這種正在發生的未來感帶進語言學研究,報考語言所的人數會不會比較多一點 ;-)

星期一, 8月 31, 2009

富(Foucault)與窮 (Chomsky)之間

這陣子許多工作的繁瑣細節,讓我提不起勁來,胡亂塗鴉,塗誌。每晚睡前,頭都要炸掉了。

其中有件工作,是翻譯一本語言學的理論書 (The Generative Lexicon)。這動輒就得逼自己創造新語彙,極力在腦海中撈字出來,組合拼湊,還要擠一些詮解出來。翻譯經典,字字句句,難以馬虎,與程式除錯不相上下。沒想到我這向來不擅長處理細節的人,終究得學會面對自己的弱處。科。

這種感覺,不知怎麼,讓我回想起發生在我一歲時, Chomsky 與 Foucault 的辯論 ;-) Youtube 一下,竟然就看得到這場辯論。辯論內容就不說了(可參見 http://www.chomsky.info/debates/1971xxxx.htm)。到現在重看,還是一如當年大學時所感覺的,一場牛頭語言學家與馬嘴哲學家的對話。一個細緻,一個刁鑽;一個思內在,一個通外在。兩種不同的聰明觀點。很精采,但是頗難有交集。當年離開 F,就是要走向 C,但是沒想到 C 也不是我可以五體投拜的;然後為了瞭解 C 所作的投入,又讓我再也難回到 F 去。頭,又要炸掉了。


星期四, 12月 11, 2008

只要量夠大:書籍影片版

看到 shuyen 的留言,我再提供一個在此新的計算典範下的另一範例給有心者作參考。

這篇要談的是 Philip Parker 教授。各位可先看紐約時報的這篇報導。這位號稱「地球史上最多產的作家」,在網路書店亞馬遜,可發現他已撰寫超過二十萬本的書籍 - - 請注意,這些都是用電腦程式寫出來的。什麼?有沒有聽錯?!雖然他的用意是在於提供出版界 POD (print on demand) 的新思維,但是他發展出來的內容生產自動化專利 (automated content creation) ,一份 250 頁的 industry forecast report,只不過花了 13 分鍾。

別鬧了,誰會去看他的書啊,你說。那你大概不知道,我們堂堂國立台灣師範大學總圖書館,就買了他 14 本書。(不信邪者請用 Parker, Philip M 作者查詢其他各大圖書館)。以下是他自己的介紹:





與此平行者,其實還有另一種更猛的計算典範,我在博士論文中稱它為漢字知識本體。改天有空再介紹給大家。這個領域應該是由中文電腦之父朱邦復先生最先發展,並應用到語言與影像資訊領域。已傳聞已久即將面市的是"自動圖文系統"(text-to-scene)。也就是說,給電腦一篇古典詩詞或小說,他幫你自動生成一部動畫影片。以下是首部公開的全自動圖文影片《記承天寺夜遊》,全片純由電腦製作,完全未有人力協助。




這世界,會變得怎麼樣子。(廣告:大家趕快來念計算語言學 ;-))

星期三, 12月 10, 2008

只要量夠大:部落文版

一直想找機會紀錄最近一些和語言計量與文本研究有關的心得。(其實應該放在research blog 上的,不過因為應用上具有娛樂性,也許可藉此機會替計算語言學作點宣傳;-))

Extremely Fatigue


It was on like Thursday or Wednesday I don't really remember. I had the thought, in the middle of my spiky moments on Tuesday and Wednesday, that I've probably been on a wrong track in my general efforts, perceptible through this journal, to keep undue hopefulness out of my daily round. I could probably make an educated guess about their ages. The first time, I knew the answer to their little trivia question and called at least 30 times. I immediately called the distributor and canceled it. He called 3 times, each time telling me that he really couldn't get the cab and he's gotten be real late. THE DAY the titles started showing up again, I called again. She stamped and wrote and stamped again in my passport, and then stamped some pieces of paper. I started thinking to myself that it was really more of a courtesy invite and Audoctor wouldn't go and Id be safe to enjoy my friends in a fun atmosphere. I just really don't like people that pretend their time is more valuable than yours. Is this really what I'm supposed to do?

不好猜出,這是一篇完全由程式自動"寫"出的部落格文章吧。給個主題,程式利用網路上大量的資料萃取與拼湊語言片斷,結果還造成頗似意識流的技巧。這是鉅量資料的可怕的地方!它讓AI研究傳統上一些 toy programs 起死回生。不具語言理解能力、單純的 pattern matching,輔以每日以驚人速度成長的語料,已經開始讓人誤以為 machine intelligence 已悄然誕生。人開始需要站在機器的角度去想,理解該怎麼定義?溝通又是什麼意義?

我看了看,這個程式寫得不難。改成中文版,多實驗幾次,加入一些 discourse parameters,要瞞過人的眼睛指日可待。你問我,做這個要幹嘛?嗯,第一好玩嘛,第二跑過一次,保證妳對於人與機器的語言理解與溝通有進一步的體悟。第三呢?至少我覺得可以是一篇 qualified 的計算語言學論文:)

星期三, 7月 04, 2007

老狗還是可以學學新把戲


買了一台筆電。看到內附的 Vista,出於好奇給它兩次機會開機,速度慢到實在無法接受。給它全部拖出去砍了!裝上 Ubuntu,花上一天設定種種工作環境,真是滿意極了!特別是 Beryl 的 3D 桌面,炫、快又能激發新的工作方式想像。現在剩下作數位筆記的方式,到底用 Tiddlywiki 還是Emacs 的 notes-mode 還需要再試試。年紀大了,缺的是時間,不缺的可是一顆熾熱的學習的心。呵呵,真冷。

星期四, 3月 29, 2007

Watch out! They are googling you

直到今天,我才覺得事情不對勁。

一早打開電腦,用 Google news 瀏覽國內外新聞,用 Gmail 收信,用 Google Page Creator及 analytics 更新與分析網頁,用 Google Blogger 寫日誌,用 Google Picasa 管理相片,用 Google Scholar 找文獻,用 Google document 和別人共同更改研究論文初稿,正考慮用 Google calendar來把記事日曆本也放在網上 ... wait a minute!

網路終將吞噬一切,這已是老生常談。Google 厲害的是,它(即將)提供一個 total solution,一個帳號,免費暢行所有網路生活需求。於是我們像上癮了般,無意間把「自己」都丟了進去。

有如此巨量的資料,輔以優異的搜尋技術。作語言處理的人,應該能夠預測到,如果 Google 要出手涉入中文輸入,要打敗自然輸入法應該不是難事。較令我不安的是,如果輔以 data mining 及 advanced machine learning 等推理技術,你的住所、興趣、愛憎、長相、工作內容、學經歷、人際關係、、、,Google 可能就是知道最多的那個。要是我是國安局或調查局頭頭,我一定就派個自動文摘 (text summarization) 高手去 google 工作,寫出幾支網路機器人 script,建立一個隨時在自動更新的全民檔案。

微軟帝國?有啥好怕!又要錢又不開放原始碼,頂多在短期間「把大家關在 office 裡」。而且我們還有優異的 linux, LaTeX, Openoffice 等說不完的 OSS. Google Empire? Uhh ... 它是誰?它在哪裡?google 作為一個動詞來使用,希望以後不會有「用 google 搜尋」之外的詞義。

喔,算一算,我一週跟谷哥在一起的時間還比跟自己老婆多。真慘,不過,不管了,呵呵。

星期二, 3月 20, 2007

WEB 2.0 與 帕海貝爾

成堆的事與心情待整理,卻賴在網上不想動。無意間看到 Funtwo (임정현) 表演 Johann Pachelbel的 Kanon und Gigue in D-Dur。Geil! 哦,聽說此搖滾版改編者還是位台灣大學生。年輕人,撼動一下這個世界!當當我們的榜樣 ;-)