伊人久久大香线蕉av一区_ 開(kāi)源項目Html Agility Pack實(shí)現快速解析Html

這是個(gè)很好的的東西，以前做Html解析都是在用htmlparser，用的雖然順手，但解析速度較慢，碰巧今天找到了這個(gè)，就拿過(guò)來(lái)試，一切出乎意料，非常爽，推薦給各位使用。

下面是一些簡(jiǎn)單的使用技巧，希望對大家有用，我個(gè)人也是個(gè)學(xué)習過(guò)程。

Why Html Agility Pack? (以下簡(jiǎn)稱(chēng)HAP)

.Net下解析HTML文件有很多種選擇，包括微軟自己也提供MSHTML用于manipulate HTML文件。但是，經(jīng)過(guò)我一段時(shí)間的搜索，Html Agility Pack浮出水面：它是Stackoverflow網(wǎng)站上推薦最多的C# HTML解析器。HAP開(kāi)源，易用，解析速度快。

How to use HAP?

1. 下載http://htmlagilitypack.codeplex.com/

2. 解壓

3. 在Visual Studio Solution里，右擊project -> add reference -> 選擇解壓文件夾里的HTMLAgilityPack.dll -> 確定

4. 代碼頭部加入 using HtmlAgilityPack;

Done!

view plain copy to clipboard print ?

HtmlWeb webClient = new HtmlWeb();
HtmlDocument doc = webClient.Load("http://xxx");
HtmlNodeCollection hrefList = doc.DocumentNode.SelectNodes(".//a[@href]");
if (hrefList != null)
{
foreach (HtmlNode href in hrefList)
{
HtmlAttribute att = href.Attributes["href"];
doSomething(att.Value);
}
}

Q: 如何根據ID選擇HTML結點(diǎn)？

A: 利用@id='xxx', e.g.,

view plain copy to clipboard print ?

HtmlNode bugSum = doc.DocumentNode.SelectSingleNode("http://h2[@id='summary']");

Q: 如何得到結點(diǎn)的文字內容或Html內容？

view plain copy to clipboard print ?

node.InnerText.Trim()
node.InnerHtml
node.OuterHtml

Q: 如何在html樹(shù)結構下查找結點(diǎn)？

A: 比如從根節點(diǎn)查找id=container的div下的第一個(gè)table:

view plain copy to clipboard print ?

HtmlNode table = doc.DocumentNode.SelectSingleNode("http://div[@id='container']/table[1]");

注意路徑里"http://"表示從根節點(diǎn)開(kāi)始查找，兩個(gè)斜杠‘//’表示查找所有childnodes；一個(gè)斜杠'/'表示只查找第一層的childnodes（即不查找grandchild）；點(diǎn)斜杠"./"表示從當前結點(diǎn)而不是根結點(diǎn)開(kāi)始查找。接上一行代碼，比如要查找table所有直接子結點(diǎn)的tr:

view plain copy to clipboard print ?