2008年9月22日 星期一

20080820 進度報告。

這次的進度,是根據上禮拜和老師討論的結果來進行
將所閱讀的參考論文做整理:

Reference:
1. Address Extraction: Extraction of Location-Based Information from the Web.
2. Effective Extraction of Addresses from Web page: A heuristic Pattern-Based
Approach.
3. Discovering Geographic Locations in Web pages Using Urban Addresses.
4. Postal address detection from the web documents.

[1]、[3]在處理地址擷取上,先建立地址架構,像[1]中的地址主要包含Suite Information(Building no.、Room no….etc) 、Municipal Location ( Street Number、Street type…etc)和regional Position ( City、Country…etc)三個部份,反之,[2]和[4]沒有初步建立地址架構。

[1]在前置處理網頁後,找出網頁內容中,彼此之間的相互關係,建立資料庫來進行concept identification的動作,最後再依照地址架構,利用node mapping完成擷取地址,不限於某些地區,所建立的資料庫量也較[2]小,但是主要的比對利用graph matching,會增加其複雜度。

[2]因為沒有先行建立地址架構,在前置處理網頁後,利用建立的知識資料庫、擷取規則、關鍵字、Address Patterns和Location Names進行比對,所需的資料庫,要建立大量的資料,即便precision和recall都較[1]高,但適用的範圍只限於某些國家或城市。

[3]和[1]的做法很相似,除了建立地址架構和前置處理,主要是利用pattern來比對,找出可能的地址資訊,再使用Gazetteer擷取出相對應的地址,著重在解決當地址資訊不是這麼完整的情況。

[4]也沒先行建立地址架構,但是利用將網頁切割成許多文字區塊,將主體區塊的內容加以辨別,建立資料庫及辨別規則來判斷內容是否為地址,用以偵測地址準確度相當高,但是由於測試的資料量過少,不確定整體效能是否如此高。


因此可改善的地方有:
1.擷取的範圍不受限單一國家或城市
2.地址資訊不論完整與否,都能擷取
3.減少辨別地址時的複雜度

首先,在處理完網頁Tag及將內容split成一個個token後(這部分學生想改用論文[4]的作法,利用DOM tree找到tag之間的文字片段),利用pattern和keyword找出可能的地址片段後,將這些片段的內容對應上所屬的lexicon,引用[4]的做法,使用辨別規則來擷取地址資訊。

在閱讀論文方面,目前初步閱讀Information Extraction from HTML:Application of a General Machine Learning Approach論文一次,對其提出的做法SRV並不是很了解,這部分學生會再將論文內容再詳讀一次。另外學生不曉得如何將Machine Learning的技術在我所提出的做法中使用,也就是說,以輸入URL→網頁前置處理→找出candidate address segmentation→parsing片段對應lexicon→Extraction這樣的流程來看,machine learning該置放在哪個步驟進行。

之後進度目標:
1.Paper Reading的部分,將不了解的部分列出來。
2.可先建立地址架構,架構中各部分,利用不同patter來作match並找出片段。
3.從線上找到需要的城市洲名等資源。
4.Machine Learning可用在擷取pattern找不到的部分,所以這部份會在研讀論文後在進行。

沒有留言: