Swing: 20080626 進度報告。

這週的進度，主要在閱讀paper以及實作兩個部份

1.paper reading：Postal Address Detection from Web Documents

學生大致上粗略看過一遍，內容分為兩部份：vision based text segmentation和recognition of postal address，先把網頁分段成各小的文字區塊，再利用syntactic approach的方法於區塊的內容進行辨識的動作。文字區塊分成兩種，一種是cue block，另一種是body block；前者包含indication、annotation和explanation，後者則包含像是地址、電話等資訊。

例如：圖中Mailing address區塊為cue block；IBM那區塊為body block，然後再是判別body block裡面是否為postal address。

2.Address Extraction：學生目前實作之前的想法，觀察大部分的地址格式中會出現的關鍵字詞，像是Road、Street、Blvd、Ave等街道的資訊，先將消去Tag後的網頁內容做split的動作，找出這幾個關鍵字詞後，並將其前後的幾個字詞也列入考慮，因為學生想說在街道的關鍵字前後，應該會出現相關的地址資訊，這樣所找出來的字串算是蠻完整的，可列作之後分析的candidate address，但是有些字串會少了些資訊，如果只有單純street number+street name所找出的地址和street number+street name+city(or state)所找到的地址會有所不同，即為ambiguity的問題。因此學生認為如要標示出地址位置，基本上街道、城市(或是國家)等關鍵字詞是不可或缺的，目前學生先利用街道的14種關鍵字(包含縮寫)來做擷取，對於地址格式完整的網頁成效還算可以，之後可能再從candidate address中利用regular expression做分析，去掉擷取到多餘的資訊，這部份學生還會再多實作來測試並觀看成效

另外學生目前比較想加強Information extraction相關的知識，因為學生認為自己的基本認知蠻薄弱的，學生也有在找資料閱讀，希望可以補強不足的部分。

Swing

2008年9月22日星期一

20080626 進度報告。

沒有留言:

文章發表

標籤

2008年9月22日 星期一

20080626 進度報告。

沒有留言:

2008年9月22日星期一