Swing: 20080917 進度報告。

延續上週訂的進度目標，這次的進度主要著重在程式的撰寫上
將地址分成兩個部份：

1. location(包含street number、name、type...等)
2. Region (包含city、state、state code、country...等)

利用pattern matching的方式找出可能的地址片段
location使用street type當作pattern；region利用state name當作pattern。
顯示出的結果有兩種：

1.完整的地址片段(ex. 7810 N. Blackstone Ave. Fresno, CA 93720 如圖一)
2.有多餘資訊的地址片段 (ex.7810 N. Blackstone Ave. Fresno, CA 93720 (559)，如圖二)

圖一，為完整的地址片段，包含號碼、街道名字、城市、州名以及區碼等資訊，能標示在地圖上，而所用的測試網頁連結。

圖二，含有多餘的資訊，像是電話號碼的區碼等多餘的資訊，但仍舊可以標示在地圖上，所用的測試網頁連結。

又將之前的論文找出來閱讀，將網頁進行Tag Elimination及split成token之後，通常先將判斷每個token是屬於那種型態(ex.NUMBER、STREET、COUNTRY等型態)，先建立Address Rule(ex. address = NUMBER+STREET+CITY+STATR+COUNTRY)，再利用sliding window去作parsing，找出可能的地址片段，這樣的方法就需要對整個token做兩次處理動作，感覺較浪費時間，若以pattern match找出的片段效果差不多的話，就只需要對整個token做一次處理。

若將地址分成更多部份，獲得正確地址片段的可能性也能提高。

而資料庫的部分還在建立當中，尚未完成

另外目前在閱讀的論文為Supporting Web-based Address Extraction with Unsupervised Tagging,Berenike Loos and Chris Biemann,2008，之前閱讀相關machine learning的論文，也正在做整理。

未來進度目標：
1. 整體架構規劃圖
2. 考慮如果換個國家是否有相同效果
3. 地址格式分成更多細項部分
4. paper reading

Swing

2008年9月22日星期一

20080917 進度報告。

沒有留言:

文章發表

標籤

2008年9月22日 星期一

20080917 進度報告。

沒有留言:

2008年9月22日星期一