2008年9月22日 星期一

20080626 進度報告。

這週的進度,主要在閱讀paper以及實作兩個部份

1.paper reading:Postal Address Detection from Web Documents

學生大致上粗略看過一遍,內容分為兩部份:vision based text segmentation和recognition of postal address,先把網頁分段成各小的文字區塊,再利用syntactic approach的方法於區塊的內容進行辨識的動作。文字區塊分成兩種,一種是cue block,另一種是body block;前者包含indication、annotation和explanation,後者則包含像是地址、電話等資訊。




例如:圖中Mailing address區塊為cue block;IBM那區塊為body block,然後再是判別body block裡面是否為postal address。





2.Address Extraction:學生目前實作之前的想法,觀察大部分的地址格式中會出現的關鍵字詞,像是Road、Street、Blvd、Ave等街道的資訊,先將消去Tag後的網頁內容做split的動作,找出這幾個關鍵字詞後,並將其前後的幾個字詞也列入考慮,因為學生想說在街道的關鍵字前後,應該會出現相關的地址資訊,這樣所找出來的字串算是蠻完整的,可列作之後分析的candidate address,但是有些字串會少了些資訊,如果只有單純street number+street name所找出的地址和street number+street name+city(or state)所找到的地址會有所不同,即為ambiguity的問題。因此學生認為如要標示出地址位置,基本上街道、城市(或是國家)等關鍵字詞是不可或缺的,目前學生先利用街道的14種關鍵字(包含縮寫)來做擷取,對於地址格式完整的網頁成效還算可以,之後可能再從candidate address中利用regular expression做分析,去掉擷取到多餘的資訊,這部份學生還會再多實作來測試並觀看成效


另外學生目前比較想加強Information extraction相關的知識,因為學生認為自己的基本認知蠻薄弱的,學生也有在找資料閱讀,希望可以補強不足的部分。

沒有留言: