由於前幾個禮拜,找到一篇和目前研究方向極為相似的文獻
藉此次progress report,簡單介紹此論文所提出的方法及系統架構
1.參考文獻:High Accuracy Postal Address Extraction From Web Pages, Zheyuan Yu,
Dalhousie University, March 2007.請點此
2.論文摘要:此篇論文利用兩大類的方法做地址擷取,第一是Rule-Based Extraction Method,另
一個為Machine Learning Approach,前者包含reqular expression approach和
Gazetteer Based approach兩種系統。作者結合rule-based method和machine learning
為一hybrid system,增進precision。
3.系統架構:主要介紹machine learning系統架構
輸入網頁URL之後,將網頁的標籤刪去並且做tokenization,建立五種feature,分別為(1)Word Level,(2)Part-of-Speech Tagger(3)Geographical,(4)Puncuation,(5)Layout,利用Word n-gram Model產生每個token的n-gram,並建出每個n-gram的feature set給decision tree classifier做training和testing,其中decision tree classifier採用C4.5,將每個n-gram的中間項做標示分類,其中標示有四種:START,MIDDLE,END和OTHER。
然後,設起始為START,結束為END,中間至少要有一個MIDDLE,最多不能超過20個MIDDLE,輸出最後的擷取結果,即為所求的地址。
作者將rule-based approach和maching learning結合成hybrid system,主要將rule-based approach所產生的feature也加入maching learning中去作training。
最後,將這幾個系統做比較:
可看出原本machine learning的效果就蠻不錯,再加上rule-base approach補強缺失,增進precision。
4.測試網頁:作者提供DEMO網頁,網頁上註明只能擷取美國,加拿大和英國的地址。
學生用三個平常在測試程式的網頁來DEMO
(1)REI.COM
{2}School dictinary
(3)YellowPages
前兩個網頁內的地址,皆有被擷取出來,且沒有多餘資訊或是不完整的地方。
但第(3)個網頁,雖然是加拿大的地址,卻連一個地址都無法被擷取出來,不確定是否無法讀取某
些網頁格式的關係,可能要再多做些測試才知道。
5.整理研究方法:
學生所利用的方法,前面部份是利用state name和street suffix來做pattern
matching,找到可能的地址片段,之後的machine learning的部分想參考這篇論文的方法
藉由改善建立的feature或者是可以利用其他分類器來達到相同效果。這部分希望在這次的進
度報告後會有較清楚的方向,不過目前會朝這方向進行。
沒有留言:
張貼留言