高速でHTMLソースを構文解析できる
HTMLの構文解析を行うことができるソフトです。
独自アルゴリズムで作成したパーサによる高速な処理が特徴となっております。
ウェブページのテキスト抽出、ウェブコンテンツ解析等にご利用ください。
◇ 動作条件 ◇
Microsoft Windows 7で動きます。
◇ 機能・実行例 ◇
ひとつのHTMLソースファイルを構文解析し、
「タグ情報ファイル」と「テキスト情報ファイル」に分解します。
◆タグ情報ファイルの見方
a[43],class=_wi|href=/intl/ja/ads/?fg=1|
上記は例としてGoogleトップページの解析結果の「タグ情報ファイル」から一行抜き出したもの。
43回目に出現するaタグは、class、hrefの属性を持ち、属性値は=を挟んで右側の値だと読みます。
各属性情報はご覧のとおりパイプ「|」で区切ってあり、タグ名との境界にはカンマ「,」があります。
◆テキスト情報ファイルの見方
html[0]body[0]div[74]div[85]div[86]div[87]div[88]span[47]a[43],広告
上記は同じ例の「テキスト情報ファイル」から一行抜き出したもの。
先程の43番目のaタグというのは、すでに5つのdivと1つのspanに囲まれており、
リンク表示文字は「広告」であることが読み取れます。
カンマ左はあるテキストを囲っているタグのリスト、
カンマ右はそタグ群に囲まれたテキストの内容となっています。
◇ 免責 ◇
・このプログラムはフリーなのでどうぞ自由に御使用ください。
・尚、著作権は作者である私が保有しています。転載は自由ですが、ご一報頂けるとありがたいです。
改変、逆アセンブル、逆コンパイルその他の手段による解析はご遠慮ください。
・本ソフトを運用した結果については、作者は一切責任を負えないのでご了承ください。
・感想や要望、バグなどありましたらお問い合わせのフォームメールからお願いします。
バグや要望など出来る範囲で応えたいと思います。
さらに詳しい内容は、ダウンロード後のREADME.txtをご覧ください。
ソフト名: | 最速HTMLパーサ君(無料版) |
---|---|
動作OS: | Windows 7 |
機種: | IBM-PC |
種類: | フリーソフト |
作者: | シュン・アローザル |