dhtml110.lzh ( Filesize: 28,000 )
CNNのホームページにWorldTalk for PC-VANでアクセスしてLarry King Live のトランスクリプションを入手しました。当然のことながらHDDに残ったのはHTML文書です。このままでは通常の検索ソフトでは取りこぼしが多くなることが予想されますし、だいたい改行の位置が画面と大きく異なります。で、FINETにあったフリーソフトをダウンロードしてタグをとろう試みたものの、大きすぎてファイルを読み込めない。しかしけっして巨大なファイルではない。検索ソフト作者の私にとってはこれでは使い物にならないので、大きなファイルもものともしない専用ツールの作成を開始しました。
ホームページで御馴染のHTMLは改行を<br>であらわしているので普通の検索ソフトでは行またがり検索ができないんですよねぇ。検索の度に検索ソフトで変換するよりもあらかじめ変換しておいた方が速いですしね。一行の長さもとてつもなく長いものがあったりしますので、それでとりあえず<br>を改行に置換える単純なツールを作ってみました。将来はタグ総てを取り除く対象にする予定なのでプログラム名は"DeHTML"としました。Windows版では削除のほか置換も出来ますのでそちらもご利用ください。
えっ、Netscapeでもテキスト形式での保存が出来るじゃないかって?そういわれてしまえばみもふたもありませんが、たくさんのファイルを取り込むときにすべてのファイルに対して人間が同じ動作をくり返すというのはスマートじゃないですね。Web自動巡回ソフトで集めたファイルはどうしますか?そんなものはソフトに任せていればいいんです。
【処理内容】
・拡張子をみてバイナリファイルの疑いがある場合は作業をスキップ。
・ファイル中の改行はHTML文書内では無意味なので削除する。(^_^)
・ファイル中の<br>を改行に置換える。(^_^)
・タグを削除する。ものによっては改行に置換える。
・><&"などを><&"に変換
・処理結果を順次出力用ファイルに吐き出す。(^_^)
【文字コードについて】
JIS/日本語EUC->SHIFT-JISの変換が利用できます。不完全かもしれませんが。
HTML関係の資料購入費、動作確認用HTML文書入手のための課金・通信費の援助を御願いしたいのでドネーションウェアとさせていただいております。1回試してしまえば処理済みテキストの山が出来てしまいますが(^_^;)よりよいソフト開発のためぜひ開発経費の援助を御願いします。
ソフト名: | DeHTML for DOS |
---|---|
動作OS: | MS-DOS |
機種: | IBM-PC |
種類: | シェアウェア :300円 |
作者: | 浜口 崇 |