Swing: 20081120 進度報告。

由於前幾個禮拜，找到一篇和目前研究方向極為相似的文獻
藉此次progress report，簡單介紹此論文所提出的方法及系統架構

1.參考文獻：High Accuracy Postal Address Extraction From Web Pages, Zheyuan Yu,
Dalhousie University, March 2007.請點此

2.論文摘要：此篇論文利用兩大類的方法做地址擷取，第一是Rule-Based Extraction Method，另
一個為Machine Learning Approach，前者包含reqular expression approach和
Gazetteer Based approach兩種系統。作者結合rule-based method和machine learning
為一hybrid system，增進precision。

3.系統架構：主要介紹machine learning系統架構

輸入網頁URL之後，將網頁的標籤刪去並且做tokenization，建立五種feature，分別為(1)Word Level,(2)Part-of-Speech Tagger(3)Geographical,(4)Puncuation,(5)Layout，利用Word n-gram Model產生每個token的n-gram，並建出每個n-gram的feature set給decision tree classifier做training和testing，其中decision tree classifier採用C4.5，將每個n-gram的中間項做標示分類，其中標示有四種：START,MIDDLE,END和OTHER。

然後，設起始為START，結束為END，中間至少要有一個MIDDLE，最多不能超過20個MIDDLE，輸出最後的擷取結果，即為所求的地址。

作者將rule-based approach和maching learning結合成hybrid system，主要將rule-based approach所產生的feature也加入maching learning中去作training。

最後，將這幾個系統做比較：

可看出原本machine learning的效果就蠻不錯，再加上rule-base approach補強缺失，增進precision。

4.測試網頁：作者提供DEMO網頁，網頁上註明只能擷取美國,加拿大和英國的地址。
學生用三個平常在測試程式的網頁來DEMO
(1)REI.COM
{2}School dictinary
(3)YellowPages
前兩個網頁內的地址，皆有被擷取出來，且沒有多餘資訊或是不完整的地方。
但第(3)個網頁，雖然是加拿大的地址，卻連一個地址都無法被擷取出來，不確定是否無法讀取某
些網頁格式的關係，可能要再多做些測試才知道。

5.整理研究方法：
學生所利用的方法，前面部份是利用state name和street suffix來做pattern
matching，找到可能的地址片段，之後的machine learning的部分想參考這篇論文的方法
藉由改善建立的feature或者是可以利用其他分類器來達到相同效果。這部分希望在這次的進
度報告後會有較清楚的方向，不過目前會朝這方向進行。

Swing

2008年11月19日星期三

20081120 進度報告。

沒有留言:

文章發表

標籤

2008年11月19日 星期三

20081120 進度報告。

沒有留言:

2008年11月19日星期三