HTMLファイルからタグを取り除き、テキストファイルに変換できるソフト。多数のオプションが用意され、さまざまな形式でテキスト出力できることが特徴。「HtoX32」は、HTMLファイル(HTMLドキュメント)からタグを削除し、Webページに表示される文字情報のみを残してテキストファイルとして保存できるソフト。メイン画面へのドラッグ&ドロップで指定フォルダにテキストファイルを出力できるほか、コンテキスト(右クリック)メニューから変換を実行することもできる。
大きな特徴は、オプション設定項目が豊富に用意され、出力結果の選択自由度が高いこと。例えば<IMG>タグは、“src=”で指定されたパスや“alt=”で指定された代替テキスト、ユーザが定義した任意文字列などに置換できる。ユーザ定義文字列に代替テキストなどを付加させることも可能。<TABLE>タグでは、テーブルを常に左寄せにして出力できるほか、セル(列)間の区切り文字を、半角スペース/カンマ/タブコードから選択することができる。
そのほかにもユーザが設定できるオプションは数多い。
- 連続する空白をひとつにまとめる
- <TITLE>〜</TITLE>間の文字列を変換する
- 行頭および行末の空白を削除する
- EOFコードを除去する
- 文末が改行コードでないときは改行コードを付加する
- リンク先のパスを挿入する
- 指定桁で強制改行する
リンク先パスの挿入では、パスの前後に改行を入れたり、(http://から記述された)外部リンクのみを挿入したりといったオプションもある。変換は、コンパクトなメイン画面やプログラムアイコンへのドラッグ&ドロップで行えるのに加え、シェル拡張機能でコンテキストメニューに「HTML→テキスト変換」を追加して、ここから行うことも可能。コンテキストメニューからは、フォルダ内HTMLファイルの一括変換を行えるほか、サブフォルダを含めた一括変換を行うことも可能だ。
出力されるテキストファイルは元のHTMLファイルと同じファイル名+.txtになる。出力先にすでに同名のファイルが存在する場合は「***.htox0.txt」などの連番名で作成される。「8.3形式のファイルは大文字で保存する」を設定し、余分なエイリアスを出力しないようにすることもできる。
ALIGN属性などで表示位置が定義されている場合は、可能な限り近いレイアウトで出力される。入力するHTMLファイルの文字コードはJIS/EUC/Shift JIS/Unicode/UTF-8に対応。出力時にShift JISにコード変換することも可能だ。