EBTag − テキストから各種マークアップ構造化文書への自動タグ付けツール

EBTag 1.61

■ 概要

EBTagは、テキストを各種マークアップ構造化文書に変換する自動タグ付けツールです

  • テキスト文書の構造を解析し、HTML4.0 / XHTML1.0 / JepaX / LaTeX / setext に変換します。
    • 章・節を自動判定します。技術系文書(1.1.1のような形式)と一般文書(第1章、等)の両方のスタイルに対応します。(章・節スタイルの個別指定も可)
    • 日本語文字コードを自動判定します(Shift_JIS/EUC/JIS/Unicode)。
    • テキストの水平線、ルビ、表を解析します。
    • 外字は置換定義ファイルにより、Unicodeの文字参照(例:鄧)、またはJepaXのgiタグに変換します。
    • HTML/XHTML/JepaX/LaTeXのヘッダ定義を編集できます。
    • 章・節単位でファイルを分割できます。(Text,HTML,XHTML,HTML Helpのみ)
    • HTMLの場合、IE5.5の縦書きに対応します。
  • テキスト、HTML文書をHTML Helpに変換します。
  • HTMLからタグを取り除き、テキストに変換します。指定桁数での改行や禁則処理を行います。(Ver1.3以降)
  • XML文書の検証を行います。DTDがない文書の場合、well-formedを検査します。(MSXML使用)
  • XSLTを用いたXML文書の変換を行います。(MSXML使用)

■ ダウンロード

■ サンプル

(1)青空文庫の『秋の瞳』(八木重吉著)をHTML Helpに変換

サンプルのダウンロード(akihi_ru.chm 47Kb)

(2)同、JepaXに変換

サンプルのダウンロード(akihi_ru.xml 34Kb)

■ 履歴

04/02/19 (1.61) ・JepaX以外のXML/SGMLのTAG除去に対応
02/08/12 (1.60) ・HTMLやXHTMLの出力で不要なヘッダが出力されるbug修正
・「高」で始まる見出しが判定できないbug修正
・WORD/一太郎などからの変換を廃止(xdoc2txtに機能を分離したため)
01/12/31 (1.59) ・入力形式に新松を追加
・T-Time形式のルビ <!R> 出力機能
・JepaXでテキスト全体を<body>とするオプション。
("まえがき"のような前付け部のないテキストを変換するとき、テキスト全部が"とびら"になってしまう問題を回避するため。「青空文庫」に多い。)
・コマンドライン版ebtagcのサポート中止
01/10/12 (1.58) ・入力形式にOASYS2形式(.oa2 .oa3 .doc)を追加。
・一太郎bug修正
01/9/26 (1.57) ・Wordのテキスト抽出精度の向上
・入力形式に一太郎(5/6/7/8以降)、OASYS Win(.oas)を追加。
01/7/16 (1.56) ・ファイル分割時に生成するindex.htmlをフレーム対応にする
・ファイル分割時、同一ファイル内リンク(<A href="#〜">)が無効になるbug修正
・英文の場合、"I " や "A "で始まる文章がリストと判定されるbug修正
・改行までを段落単位と見なすオプション
・半角ローマ数字 i ii iii iv v vi vii viii ix x のリストに対応
・出力フォルダの指定で、前回選択したフォルダが初期値に表示されるようにする
・ボタンをビットマップにする
・入力形式にWord95、英語版Word、RTFに対応
01/4/2 (1.55) ・TeXで章節番号に連番を振らないオプション
・MS-Word文書のテキストを変換可能にする
・HTML→HTML Help変換でもKLINKを挿入できるようにする
・HTML→HTMLへの変換(ファイルの分割に使用できる)
01/2/23 (1.54) ・TeXの \textless 等の記号の後ろに空白を追加する
・<pre>〜</pre>で一行毎に空白が挿入されるbug修正
01/1/13 (1.53) ・改行を出力するオプション
・句読点(。、)で終わるテキストは前後行空白でも見出しとしない
(詩文形式で1行のみの段落を誤変換するため)
・"第1部"のみで行が終わり、章題がないケースに対応
・段落を中途改行した場合、2行目以降のルビが振られないbug修正
00/12/11 (1.52) リストの判定精度の向上
@Aの丸数字をリストとして解析できるようになる
既存のHTML文書からHTML Helpへの変換の追加。
EBTagのマニュアルをHTML Helpに変更。
00/9/30 (1.51) アイコンへのドラッグ&ドロップ
変換するファイルをチェックボックスで個別に選択できるようにした。全解除、全選択ボタンも用意。
途中で改行されたリストを判定できるようにする
"1-1" のようにハイフンを用いた章節番号を技術系見出しとして解釈
"2.0"のように0から始まる節番号に対応
00/9/25 (1.50) テキスト解析部をKWICViewと統合するため、ソースを改変。
LaTeX、XHTML1.0、setextへの変換を追加
文字コード自動判定(JIS/シフトJIS/EUC/Unicode)
表、水平線、整形済みテキスト対応
各ヘッダ情報(HTML/XHTML/JepaX/LaTeX)の編集保存
1行目にタイトル、2行目に著者名が書かれたテキストの判別
自動判定の強化、詳細設定パネルで判定条件を指定可とする
エクスプローラからのドラッグ&ドロップ
00/6/20 (1.4a) 和文見出し("第1章")と技術系見出し("1.1.2")の混合
JepaXへの変換結果が検証に通るように一部要素を修正
00/6/7 (1.4) DTDによるXML文書の検証とXSL変換
リストの判定条件変更。1.は章ではなくリストと判定。
00/5/28(1.3)HTML→TEXT変換(タグを除去)。指定桁数での改行と禁則処理
00/5/27漢数字の見出し判定bug修正
00/5/25HTML Helpにハイパーリンク挿入の有無を指定可とする
00/5/20 (1.2) 青空文庫のルビ《》に対応、他

©1999-2000 hishida
Go to Home