延續上週訂的進度目標,這次的進度主要著重在程式的撰寫上
將地址分成兩個部份:
1. location(包含street number、name、type...等)
2. Region (包含city、state、state code、country...等)
利用pattern matching的方式找出可能的地址片段
location使用street type當作pattern;region利用state name當作pattern。
顯示出的結果有兩種:
1.完整的地址片段(ex. 7810 N. Blackstone Ave. Fresno, CA 93720 如圖一)
2.有多餘資訊的地址片段 (ex.7810 N. Blackstone Ave. Fresno, CA 93720 (559),如圖二)
圖一,為完整的地址片段,包含號碼、街道名字、城市、州名以及區碼等資訊,能標示在地圖上,而所用的測試網頁連結。
圖二,含有多餘的資訊,像是電話號碼的區碼等多餘的資訊,但仍舊可以標示在地圖上,所用的測試網頁連結。
又將之前的論文找出來閱讀,將網頁進行Tag Elimination及split成token之後,通常先將判斷每個token是屬於那種型態(ex.NUMBER、STREET、COUNTRY等型態),先建立Address Rule(ex. address = NUMBER+STREET+CITY+STATR+COUNTRY),再利用sliding window去作parsing,找出可能的地址片段,這樣的方法就需要對整個token做兩次處理動作,感覺較浪費時間,若以pattern match找出的片段效果差不多的話,就只需要對整個token做一次處理。
若將地址分成更多部份,獲得正確地址片段的可能性也能提高。
而資料庫的部分還在建立當中,尚未完成
另外目前在閱讀的論文為Supporting Web-based Address Extraction with Unsupervised Tagging,Berenike Loos and Chris Biemann,2008,之前閱讀相關machine learning的論文,也正在做整理。
未來進度目標:
1. 整體架構規劃圖
2. 考慮如果換個國家是否有相同效果
3. 地址格式分成更多細項部分
4. paper reading
沒有留言:
張貼留言