World Encyclopaedia Toolkit
日立デジタル平凡社「世界大百科事典」CD-ROMをEPWING(JIS X4081)化するツールキットです。 変換には、EBStudioを使用します。
細密画 |
著者リンク |
百科年鑑・便覧を複合検索で検索 |
《特徴》
《制限》
《メリット》
cx2text.exe | 「世界大百科事典」テキスト化(太田純氏作パブリックドメイン) |
cx2html.exe | テキスト化されたデータをHTMLに変換 |
cx2data.exe | 圧縮された図版を展開し、EMFまたはJPEGに変換(太田純氏作) |
stgdump.exe | OLE2複合ファイルに格納されたファイルを外部ファイルに出力 |
Convert.bat | 変換バッチファイル(本文用) |
ConvData.bat | 変換バッチファイル(初版の百科年鑑・便覧用) |
README.html | マニュアル |
style.css | CSS |
skel/ * | 各種スケルトンファイル |
src/cx2text/ | cx2text ソース |
src/cx2data/ | cx2data ソース |
src/cx2html/ | cx2html ソース |
src/stgdump/ | stgdump ソース |
ViX (フリー) | http://homepage1.nifty.com/k_okada/ |
meta2jpeg(フリー) | http://hp.vector.co.jp/authors/VA024250/windows/meta2jpeg/index.html |
対応OS
Windows95 / 98 / Me / 2000 / XP
set ENCYPATH=C:\Program Files\World Encyclopaedia set DATPATH=E:\Ency\Dat set BASE=C:\Ency set EPWING=C:\Ency |
ENCYPATH | 世界大百科事典の次のファイルが含まれるディレクトリ。
ITEMLOC.DAT, ITEMLINK.DAT, TITLEZ.DAT, SINIDX.DB, TITLE.DAT, AUTLOC.DAT, AUT.DAT, AUTLINK.DAT, META.STG, PICT.DAT, PICT.IDX ・初版はCD-ROMの\ENCY\DATを指定、2版以降はインストールディレクトリを指定 |
DATPATH | 本文データ(ITEM.DAT)の存在するディレクトリ。 ・通常はCD-ROMの\ENCY\DATを指定します。 ・「ライブラリリンク対応版」など完全インストールできる版では、ENCYPATH=とDATPATH=は同じパスを指定できます。 ・第2版プロフェッショナル版の『検索ディスク』と『探索ディスク』のITEM.DATは同じなので、どちらのディスクを使用しても可。 |
BASE | EBStudio用ファイル群(HTML等)を作成する基準ディレクトリ |
EPWING | JIS X4081辞書を作成する出力ディレクトリ(=EBStudioの出力ディレクトリ) |
※エディション毎のパス指定は次の通りです。(判明しているもののみ)
初版 | set ENCYPATH=<drv>:\ENCY\DAT *1 set DATPATH=<drv>:\ENCY\DAT *1初版はSINIDX.DB(総索引)がハードディスクにインストールされないため、CD-ROM上のパスを指定して下さい。なお、SINIDX.DBをC:\Program Files\World Encyclopaediaにコピーすれば、第2版と同様に、インストールディレクトリを指定できます。 |
第2版ベーシック版 | set ENCYPATH=C:\Program Files\World Encyclopaedia set DATPATH=<drv>:\ENCY\DAT |
第2版プロフェッショナル版(CD) | set ENCYPATH=C:\Program Files\World Encyclopaedia set DATPATH=<drv>:\ENCY\DAT |
第2版プロフェッショナル版(DVD) | set ENCYPATH=C:\Program Files\World EncyclopaediaDVD set DATPATH=<drv>:\ENCY\DAT |
第2版ライブラリリンク対応 |
set ENCYPATH=C:\Program Files\World EncyclopaediaLib2 set DATAPATH=C:\Program Files\World EncyclopaediaLib2 |
第2版 & マイペディア版 |
set ENCYPATH=C:\Program Files\World Encyclopaedia204 set DATPATH=C:\Program Files\World Encyclopaedia204 |
月刊ASCII 体験版 | set ENCYPATH=C:\Program Files\HDH World Encyclopaedia set DATPATH=<drv>:\ENCY\DAT |
C:\> cd c:\encytk C:\encytk> convert |
※注意※
%BASE% ディレクトリ(2.で "SET BASE=" で設定したディレクトリ)に、以下のファイルが作成されます。
item.txt | テキスト抽出結果。cx2textの出力。 |
Copyright.html | EBStudio用:著作権情報ファイル |
complex.xml | EBStudio用:複合検索定義ファイル |
Gaiji.xml | EBStudio用:外字イメージファイル |
GaijiMap.xml | EBStudio用:外字マッピング定義ファイル |
ency.html | EBStudio用:HTMLファイル(本文) |
auth.html | EBStudio用:HTMLファイル(著者リンク) |
link.html | EBStudio用:HTMLファイル(関連項目リンク) |
menu.html | EBStudio用:HTMLファイル(menu) |
ency.ebs | EBStudio用:作業環境定義ファイル |
fig/*.jpg | PICT.DATに含まれるJPEGファイル(4614個) |
map.txt | 外字頻度表(このデータは使用されない) |
現在ディレクトリに以下のファイルが作成されます(個数は第2版の場合)。
META/*.EMF | - META.STGに含まれるEMFファイル(4466個) |
PICT/*.EMF | - PICT.DATに含まれるEMFファイル(7130個) |
※第2版のユーザは、このステップは飛ばして次の 5. に進んで下さい。
ConvData.bat(配布パッケージ)をエディタで開き、1〜4行目のパス(下図の黄色部分)をユーザの利用環境に合わせて変更します。(パスの末尾の \ は付けません)
set YEARPATH=E:\YEARBOOK\DAT set DATAPATH=E:\DATABOOK\DAT set BASE=C:\Ency |
YEARPATH | 初版・百科年鑑のCD-ROM上のディレクトリ |
DATAPATH | 初版・百科便覧のCD-ROM上のディレクトリ |
BASE | EBStudio用ファイル群(HTML等)を作成する基準ディレクトリ |
ConvData.bat を実行します。
C:\encytk> convdata |
%BASE% ディレクトリ("SET BASE=" で設定したディレクトリ)に、以下のファイルが作成されます。
year.txt | 百科年鑑のテキスト抽出結果。 |
data.txt | 百科便覧のテキスト抽出結果。 |
year.html | EBStudio用:百科年鑑 |
data.html | EBStudio用:百科便覧 |
fig/*.jpg | YEARBOOK\DAT\PICT.DATに含まれるJPEGファイル(345個) |
現在ディレクトリに以下のファイルが作成されます。
PICT/*.EMF | - DATABOOK\DAT\PICT.DATに含まれるEMFファイル(702個) |
%BASE%\ency.ebsをエディタで開き、末尾に次の2行を追加して下さい。
※後ほどEBStudioでency.ebsを開いた後に、画面上で追加してもかまいません。
Source=$(BASE)\year.html;_;_;HTML; Source=$(BASE)\data.html;_;_;HTML;
META/*.EMF → %BASE%/fig/*.jpg PICT/*.EMF → %BASE%/fig/*.jpg
EBStudioで作成したJIS X4081(EPWING)のHONMONのサイズは次の通りです。
1.テキスト+インライン画像+リンク画像 | 725MB |
2.テキスト+インライン画像 | 280MB |
3.テキストのみ | 260MB |
以上は35万語の総索引(前方一致+後方一致)を付けた場合です。-k=0オプションで8万語の項目見出しだけにした場合、約60MB 小さくなります(1.の場合で、725MB→665MB)。 また、著者リンクと関連項目リンクを省略すると、さらに約40MB 小さくなります。
JPEGファイルの圧縮率を調整すると、サイズを小さくできます。 60%くらいまで落としても実用上は問題ありません。
例示探索を、JIS X4081のメニューに変換することができます。
Convert.batの変換後、以下の手順を追加で行って下さい。
※例示探索は、初版、および第2版プロフェッショナル版のみ含まれます。
ベーシック版、モバイル対応版、ライブラリリンク対応版では実行できません。
C:\encytk> cx2html -x=3 E:\ENCY\REIJI\REIJI.DAT -o C:\ency |
Source=$(BASE)\reiji.html;_;_;HTML;
ViXは K_OKADA 氏が開発されたフリーの統合画像ビュアーです。
ViXを利用してのフォーマット変換の際に、一部の図版の 線がかすれ現象を改善する方法(h_ito氏)
OS: Microsoft Windows XP SP1a以上の手順で、かすれる線を救うことが出来ました。
画像は(当然ながら)アンチエイリアスの効いた状態になります。
この点は嬉しい人とそうでない人に分かれるところでしょうか。
(エッジ強調などの併用で更に改善できるかもしれません)
また解像度についてはいろいろな選択肢がありそうですが、
あとで画像を縮小することを考えれば、無理の無い補間が可能な
整数倍(96dpi→192dpi)の設定が良いかと思います。
なお192dpiでEMFから変換された画像にも1ピクセル幅の線が
多数存在しますので、縮小の工程ではこれらの線をよく再現可能な
バイキュービック補間の利用が必須かと思います。
(あるいは"線がかすれない最低限の解像度"を探し、少し大きな
画像をそのまま利用するといった方法も考えられます)
世界大百科事典の本文をテキスト化
cx2text [-i <datPath>] [-e <EncyPath>] [itemno] |
-i <datPath> ITEM.DAT の存在するパス -e <EncyPath> 世界大百科事典のインストールディレクトリ [itemno] 特定の項目番号のみ変換
※出力先は現在ディレクトリ
cx2text.exeは、世界大百科事典の次のファイルを使用します:
ITEMLOC.DAT | 項目参照表(項目とITEM.DAT, ITEMLINK.DATへの対応表) |
ITEM.DAT | 本文データ |
META.STGに含まれる圧縮EMFを外部ファイル化
stgdump <infile> [-o <outpath>] [-s] |
<infile> 入力ファイル(=META.STG) -o <outpath> 出力ディレクトリ。省略した場合は現在ディレクトリ -s ファイル名の先頭一文字を削除(世界大百科辞典のMETA.STG専用)
世界大百科事典の圧縮図版をEMF(WMF)またはJPEGに変換
cx2data -p <pathname> [pictno] または cx2data -f <filename> |
-p <pathname> pict.idx pict.dat の存在するディレクトリ -f <filename> META.STGから取り出した圧縮EMFファイル
※出力先は現在ディレクトリ
世界大百科事典テキスト(cx2textの出力ファイル)を、EBStudioの入力形式のHTMLに変換
cx2html [-f={0|1|2}] [-a={0|1}] [-l={0|1}] [-k={0|1}] [-g={jpg|bmp}] [-t={0|1}] <item.txt> -e <EncyPath> [-o <outPath>] [-p <epwingPath>] [-x={0|1|2|3}] |
<item.txt> cx2text.exe で変換したテキストファイル -e <EncyPath> 世界大百科事典のインストールディレクトリ -o <outPath> 出力ファイルを作成するディレクトリ -p <epwingPath> JIS X4081辞書を作成する出力ディレクトリ [-f={0|1|2}] 画像の指定 -f=0 作成しない -f=1 インライン画像とリンク画像を作成(デフォルト) -f=2 インライン画像のみ作成 [-a={0|1}] 著者リンク -a=0 著者リンクを作成しない -a=1 著者リンクを作成する(デフォルト) [-l={0|1}] 関連項目 -l=0 関連項目リンクを作成しない -l=1 関連項目リンクを作成する(デフォルト) [-k={0|1}] 総索引の使用 -k=0 総索引(35万語)を使用しない。この場合は項目見出し(8万語)からインデックスを作成 -k=1 総索引(35万語)を使用する(デフォルト) [-g={jpg|bmp}] 画像の拡張子(デフォルトは"jpg") [-t={0|1}] DDWin用オフセット調整 -t=0 調整しない -t=1 調整する(デフォルト) ※DDWinで同じ項目で検索結果が複数ある場合、最適化で見出し項目が 消える現象が生じる。このため見出し項目以外の索引について、 本文アドレスを調整する。DDWin以外では必要ない。 [-x={0|1|2|3}] 変換種別 -x=0 本文(デフォルト) -x=1 百科年鑑(初版) -x=2 百科便覧(初版) -x=3 例示探索(REIJI.DAT)
cx2html.exe -x=0 は、<EncyPath>に格納された次のファイルを使用します:
ITEMLOC.DAT | 項目参照表(項目とITEM.DAT, ITEMLINK.DATへの対応表) |
ITEMLINK.DAT | 関連項目のリンクデータ |
TITLEZ.DAT | 項目タイトル |
SINIDX.DB | 総索引(35万語) |
TITLE.DAT | 索引タイトルおよびリンク |
AUTLOC.DAT | 著者情報管理テーブル;AUT.DATとAUTLINK.DATへのリンク |
AUT.DAT | 著者情報テキスト |
AUTLINK.DAT | 著者から本文への参照表 |
[凡例]
フォント名 | HDHGOT - HDHゴシック(本文で使用される) HDHLG - HDHリストゴシック(タイトルで使用される) |
ShiftJIS | 当該フォントで使用されている文字コード(ShiftJIS) |
検索文字列 | EPWINGビューアの検索時に使用する代替文字。未定義は"NULL"を指定する。 |
置換文字列 | 表示に使用する代替文字。EBStudioの定義済要素名が使用できる 未定義は"NULL" |
# 外字置換表 2003/11/30 # フォント名,ShiftJISコード,検索文字列,置換文字列 HDHLG, 00A1, S, Š HDHLG, 00A2, A, Ä HDHLG, 00A3, O, Ö HDHLG, 00A4, U, Ü .. HDHLG, 00A9, H, NULL .. HDHGOT, 00B1, NULL, ' HDHGOT, 814C, NULL, ā HDHGOT, 814F, NULL, ē .. HDHGOT, 88D2, NULL, 侠 HDHGOT, 8965, NULL, 剥 HDHGOT, 898F, NULL, 卿 ... HDHLG, F062, NULL, 剥 HDHLG, F06F, NULL, 卿 HDHLG, F17B, NULL, 淫 HDHLG, F194, NULL, 灘 ... |
2004年に日立システムアンドサービスから発売された「世界大百科事典 第2版 & マイペディア」付属の「マイペディア」は、「世界大百科事典 第2版」と共通のフォーマットを採用しているため、当Toolkitで変換できます。
2004年6月にソースネクスト株式会社から発売された「マイペディア」も同じ製品のため、同様の手順で変換できます。以下に変換方法を解説します。
●変換方法
Ver1.01から、マイペディア専用のバッチファイルを添付しました。
作業の過程で、マイペディアのデータファイルを作業ディレクトリに複写します。ディスクに約200MBの空き領域が必要です。
set ENCYPATH=C:\Program Files\Mypaedia110 - マイペディアをインストールしたディレクトリ set DATPATH=C:\Program Files\Mypaedia110 - マイペディアをインストールしたディレクトリ set BASE=D:\Work - Toolkitを展開したディレクトリ set EPWING=D:\Work - 実際にJIS X4081を出力したいディレクトリを指定してください |
Q1.外字が表示されない、または化けています。
A1.
当Toolkitでは、PCにインストールされたHDHゴシックおよびHDHリストゴシックフォントから外字ファイルを作成します。お使いのPCにこれらのフォントがインストールされているかどうかご確認ください。
フォントがインストールされていても外字が変換されない場合、Windos95/98の場合は、フォントキャッシュ(WindowsフォルダにあるttfCache)を削除すると直る場合があります。
Q2.世界大百科事典の検索に比べて、ヒット数が少ないようです。
A2. EPWINGビューアの仕様によるものです。「世界大百科事典」では、同じ本文に対して同じ読みの索引が複数付けられていることがあります。EPWINGビューアは、読みに対する検索結果が複数ある場合、重複を除去する作業をします。このため、「世界大百科事典」で同じ項目に同じ読みの索引が複数ある場合は、重複と見なされて除去され、ヒット数が減ってしまいます。ビューアによっては設定で回避できることがあります。
ViewIng
設定(R)→単語検索の設定(I)→「検索結果を最適化する(P)」のチェックを外す (前方一致と後方一致両方とも)
Jamming
オプション(O)→環境設定(P)→辞書別→「世界大百科事典」を選択→「本文が同じ項目は表示しない」のチェックを外す
DDWin
ツール(T)→オプション(T)→検索→「該当項目リストの並び替え」を「しない」
※DDWinは辞書毎の設定ができないため、上記の設定をすると、他の辞書で同じ項目が2回以上一致する不具合が生じます。
Q3.PDAで使用するために辞書をなるべく小さくしたいのですが。
A3.
cx2html.exe -f=0 -a=0 -l=0 -k=0 "%BASE%\item.txt" -e "%ENCYPATH%" -o "%BASE%" -p "%EPWING%"インライン画像のみ使用したい場合は:
cx2html.exe -f=2 -a=0 -l=0 -k=0 "%BASE%\item.txt" -e "%ENCYPATH%" -o "%BASE%" -p "%EPWING%"
Q4.ViewIngで画像を表示しようとすると異常終了します。
A4. ViewIngはEPWING V2準拠なので、JPEG画像を表示できません。 画像を全く使用しないか、またはBMP画像に変換します。BMPを使用する手順は:
Q5.索引の検索で見出し項目以外(検索結果見出しの頭に○+△が付かないもの)を選択すると、本文の表示開始位置が一行ずれるのが気になります。
A5.
DDWinの表示のトラブル対策です。DDWin以外のビューアをお使いの場合は、cx2htmlのオプションで-t=0(オフセット調整をしない)を選択すると、見出し行から表示されます。
EPWINGビューアでは通常、検索結果が複数ある場合に、同じ項目が2件以上表示されないように表示の最適化を行います。ところが
DDWinだけは最適化の時に見出し項目の方が削除されてしまうので、見出し項目とその他の項目で表示開始位置をずらしています。
Q6.世界大百科事典第2版を仮想ディスクで使用しており、検索ディスクと探索ディスクの2枚をマウントしています。\Ency\Dat\ITEM.DAT は両方のディスクに含まれています。Convert.bat の 「set DATPATH=」 にはどちらを指定すべきでしょうか。
A6. 検索ディスクと探索ディスクには同じファイルが重複して格納されていますので、どちらを指定してもかまいません。
Q7.Buckingham EB Player(Win)で外字が化けて表示されます。
A7. 同時に使用している辞書の数が多すぎることが原因です。使用する辞書の数を減らして下さい。
Q8.DDWinでページ違反が生じます。
A8. 図版のEMF→JPEG変換が漏れていて図版ファイルが足りない 可能性があります。画像の変換を確認して下さい。なお、 表示(V)→インライン画像(I)のチェックを外すとエラーはでなくなります。
Q9.「ウシ(牛)」の項を「牛」で表記検索できません。他にも()内の語を表記で検索できない項目があります。
A9. 世界大百科事典の総索引にもともと含まれていない検索語では、検索できません。 添付のperlスクリプト AddIndex.plを使用すると表記検索を追加できます。
perl AddIndex.pl < Ency.html > Ency2.HTML del Ency.html ren Ency2.HTML Ency.HTML
Q10.EBView 0.3.3で検索すると、一部の項目が文字化けします。DDWinや他のビューアでは化けません。
A10. [設定]→[外観]→[その他]で「検索語を強調表示する」のチェックマークを外してください。
Q11.総索引(35万語)からの変換を指定しているはずなのに、変換されていません。
A11. Convert.batのset ENCYPATH=で指定されるディレクトリに、SINIDX.DBがありません。 ENCYPATH=にCD-ROM上のパスを指定するか、SINIDX.DBをCD-ROMからハードディスク(ENCYPATH)に複写して下さい。
2005/03/13 | Ver1.03 |
|
2005/02/27 | Ver1.02 |
|
2005/01/31 | Ver1.01 |
|
2004/10/10 |
| |
2004/06/20 |
| |
2004/05/23 |
| |
2004/02/08 | Ver1.00 |
|
2003/12/31 | Ver0.8 |
|
2003/12/29 | Ver0.7 |
|
2003/12/20 | Ver0.6 |
|
2003/12/14 | Ver0.5 |
|
2003/12/06 | Ver0.4 |
|
2003/12/03 | Ver0.3 |
|
2003/11/29 | Ver0.2a |
|
2003/11/24 | Ver0.2 |
|
2003/11/21 | Ver0.1 |
|
2003/11/17 |
|
世界大百科事典を解析し、テキスト化プログラム cx2text をパブリックドメイン として公開された太田純氏、並びに解析作業に協力された藤井 宏憲氏に、心より感謝の意を表します。
© Copyright 2003 Junn Ohta, hishida