首先說明之前研究的進度,在寄給老師的信件中已提到。
整個主體概念為:使用者輸入網頁URL之後,經過地址擷取的分析,將地址標示在Google Map上。
第一、就程式整合方面,先前是利用ASP.NET來撰寫整個程式,不過Google Map所提供
的API是利用Javascript,所以必須將這兩個部份做整合,但學生後來將整個程式改成用javascript來撰寫,也較能省去整合程式語言上的時間。
第二、整體概念上,學生已完成的部分有,輸入網頁URL,將網頁原始碼進行消去Tag的動作,再利用split把文字內容切成一個個token存於陣列當中。觀察大部分的地址資訊,學生利用street type作為關鍵詞的判斷依據,抓取關鍵詞的前後二到三個token,與關鍵詞形成字串後存入陣列中,其中學生所使用的street type關鍵詞有:Street、Road、Way、Avenue、Place、Boulevard、Place、Pkwy,相關的縮寫也有列入考慮。
第三、地址擷取分析的部分,是學生目前最需處理的一塊。信中原本提到網頁架構不一的問題,可能會在每個文字片段中間出現多餘的空格,昨天regular meeting完後,萍華提到說可以用regular expression來解決,之前學生只有利用regular expression來做Tag的消去,所以這部份也經過修改之後,目前已解決這問題。另外就是地址資訊中若沒有出現關鍵字詞需要如何判斷的問題,以及用這樣的方式,可能會因為國家之間的用詞不同而侷限住範圍,因此如果想要不受限各個國家或語言,這個部份也是個問題。
在和老師討論之後,學生目前需要完成的項目有:
1.就先前看過的論文作比較,列出其優缺點,然後比較自己的想法和其他篇論文的差異在哪裡,哪方面可以改善或補強。
2.建議可從Machine Learning的角度切入,這個部份就需要多找相關Machine Learning資料閱讀。
3.老師所給的兩篇參考資料:information extraction from HTML: application of a general machine learning approach.及The WHIRL approach to integration: an Overview。
而另外一篇是學生昨天找的參考資料:address extraction using Hidden Markov Model。
就接下來需要完成的部分,學生會盡量趕上進度。
沒有留言:
張貼留言