基于統計的技術自動化程度是
基于統計的技術和基于視覺特征的技術在多數情況下都涉及對待抽取內容本身進行區域劃分等處理,需要進行人工干預,因此,操作人員的主觀行為可能會造成區域劃分不合理,從而直接影響信息抽取的效果?;谀0宓募夹g需要依賴于表示待抽取位置的節點串,通常需要針對某一類待抽取對象進行分析和標記,總結出一個統一的模板節點串。盡管利用模板來抽取信息較為便捷,但生成模板的過程卻需要大量的人工操作?;贒OM樹結構的技術針對Web網頁本身的結構優勢,通過對網頁樹進行對比操作,就可以確定頁面內主題信息的位置進而實現信息的抽取,極少受到操作者主觀因素的影響。
基于統計的復雜性是
基于統計的技術在理論上易于實現,但其難點在于確定一個合理的閾值。閾值的確定方法會對主題對象的確定產生直接的影響,并且對于不同種類的對象必須分別討論閾值?;谝曈X特征的技術對對象的分塊更加注重可視化信息的組織形式?;贒OM樹結構的技術不需要再對抽取對象進行分塊處理,可以直接通過對比得出主題信息區域,但卻需要對每個對象都進行同樣的處理,沒有充分利用已有的結果總結出針對同類相似對象進行處理的統一方法?;谀0宓募夹g免去了對同類對象的重復操作,針對相似對象總結出統一的抽取模板,但在模板的生成方法和模板通用性方面還有待于改善。