世界大百科事典Toolkit

World Encyclopaedia Toolkit

■概要

日立デジタル平凡社「世界大百科事典」CD-ROMをEPWING(JIS X4081)化するツールキットです。 変換には、を使用します。


細密画

著者リンク

百科年鑑・便覧を複合検索で検索

■このツールの特徴

《特徴》

《制限》

《メリット》

■動作確認

  1. 「世界大百科事典 初版」
  2. 「世界大百科事典 第2版 ベーシック版」(含ミレニアムエディション)
  3. 「世界大百科事典 第2版 プロフェッショナル版」(含ミレニアムエディション)
    ※ DVD/CD-ROMのいずれも変換可
  4. 「世界大百科事典 第2版 ライブラリリンク対応2」
  5. 「世界大百科事典 第2版 & マイペディア」(株式会社日立システムアンドサービス)
    http://ds.hbi.ne.jp/sedaiinfo/
  6. 「百科事典マイペディア」(ソースネクスト株式会社)
    http://www.sourcenext.com/products/mypedia/
    ※→「マイペディア・ソースネクスト版について

■配布ファイル

cx2text.exe 「世界大百科事典」テキスト化(太田純氏作パブリックドメイン)
cx2html.exe テキスト化されたデータをHTMLに変換
cx2data.exe 圧縮された図版を展開し、EMFまたはJPEGに変換(太田純氏作)
stgdump.exe OLE2複合ファイルに格納されたファイルを外部ファイルに出力
Convert.bat 変換バッチファイル(本文用)
ConvData.bat 変換バッチファイル(初版の百科年鑑・便覧用)
README.html マニュアル
style.css CSS
skel/ * 各種スケルトンファイル
src/cx2text/ cx2text ソース
src/cx2data/ cx2data ソース
src/cx2html/ cx2html ソース
src/stgdump/ stgdump ソース

■他に必要なソフトウェア

■動作環境

対応OS

Windows95 / 98 / Me / 2000 / XP

■著作権

■使用方法

●注意事項

●具体的手順

  1. 配布パッケージを任意のディレクトリに解凍します。以下の例では C:\encytk として説明します。
  2. Convert.bat をエディタで開き、1〜4行目のパス(下図の黄色部分)をユーザの利用環境に合わせて変更します。(パスの末尾の \ は付けません)
  3. set ENCYPATH=C:\Program Files\World Encyclopaedia
    set DATPATH=E:\Ency\Dat
    set BASE=C:\Ency
    set EPWING=C:\Ency
    

    ENCYPATH世界大百科事典の次のファイルが含まれるディレクトリ。

    ITEMLOC.DAT, ITEMLINK.DAT, TITLEZ.DAT, SINIDX.DB, TITLE.DAT, AUTLOC.DAT, AUT.DAT, AUTLINK.DAT, META.STG, PICT.DAT, PICT.IDX

    ・初版はCD-ROMの\ENCY\DATを指定、2版以降はインストールディレクトリを指定
    DATPATH本文データ(ITEM.DAT)の存在するディレクトリ。
    ・通常はCD-ROMの\ENCY\DATを指定します。
    ・「ライブラリリンク対応版」など完全インストールできる版では、ENCYPATH=とDATPATH=は同じパスを指定できます。
    ・第2版プロフェッショナル版の『検索ディスク』と『探索ディスク』のITEM.DATは同じなので、どちらのディスクを使用しても可。
    BASE用ファイル群(HTML等)を作成する基準ディレクトリ
    EPWINGJIS X4081辞書を作成する出力ディレクトリ(=の出力ディレクトリ)

    ※エディション毎のパス指定は次の通りです。(判明しているもののみ)

    初版set ENCYPATH=<drv>:\ENCY\DAT *1
    set DATPATH=<drv>:\ENCY\DAT

    *1初版はSINIDX.DB(総索引)がハードディスクにインストールされないため、CD-ROM上のパスを指定して下さい。なお、SINIDX.DBをC:\Program Files\World Encyclopaediaにコピーすれば、第2版と同様に、インストールディレクトリを指定できます。

    第2版ベーシック版 set ENCYPATH=C:\Program Files\World Encyclopaedia
    set DATPATH=<drv>:\ENCY\DAT
    第2版プロフェッショナル版(CD) set ENCYPATH=C:\Program Files\World Encyclopaedia
    set DATPATH=<drv>:\ENCY\DAT
    第2版プロフェッショナル版(DVD) set ENCYPATH=C:\Program Files\World EncyclopaediaDVD
    set DATPATH=<drv>:\ENCY\DAT
    第2版ライブラリリンク対応 set ENCYPATH=C:\Program Files\World EncyclopaediaLib2
    set DATAPATH=C:\Program Files\World EncyclopaediaLib2
    第2版 & マイペディア版 set ENCYPATH=C:\Program Files\World Encyclopaedia204
    set DATPATH=C:\Program Files\World Encyclopaedia204
    月刊ASCII 体験版set ENCYPATH=C:\Program Files\HDH World Encyclopaedia
    set DATPATH=<drv>:\ENCY\DAT

  4. Convert.bat を実行します。(PV600MHz機で4時間程度)
    1. MS-DOSプロンプトを開きます
    2. CD(Change Directory)コマンドで、現在ディレクトリを1.で解凍したディレクトリに移動します。
    3. Convert.batをコマンドラインから実行します。

     C:\> cd c:\encytk
     C:\encytk> convert
    

    ※注意※

    %BASE% ディレクトリ(2.で "SET BASE=" で設定したディレクトリ)に、以下のファイルが作成されます。

    item.txt テキスト抽出結果。cx2textの出力。
    Copyright.html 用:著作権情報ファイル
    complex.xml 用:複合検索定義ファイル
    Gaiji.xml 用:外字イメージファイル
    GaijiMap.xml 用:外字マッピング定義ファイル
    ency.html 用:HTMLファイル(本文)
    auth.html 用:HTMLファイル(著者リンク)
    link.html 用:HTMLファイル(関連項目リンク)
    menu.html 用:HTMLファイル(menu)
    ency.ebs 用:作業環境定義ファイル
    fig/*.jpg PICT.DATに含まれるJPEGファイル(4614個)
    map.txt 外字頻度表(このデータは使用されない)

    現在ディレクトリに以下のファイルが作成されます(個数は第2版の場合)。

    META/*.EMF - META.STGに含まれるEMFファイル(4466個)
    PICT/*.EMF - PICT.DATに含まれるEMFファイル(7130個)

  5. 初版の場合、ここで『世界地図/日本地図/百科年鑑/百科便覧』のCD-ROMに交換します。

    ※第2版のユーザは、このステップは飛ばして次の 5. に進んで下さい。

    ConvData.bat(配布パッケージ)をエディタで開き、1〜4行目のパス(下図の黄色部分)をユーザの利用環境に合わせて変更します。(パスの末尾の \ は付けません)

    set YEARPATH=E:\YEARBOOK\DAT
    set DATAPATH=E:\DATABOOK\DAT
    set BASE=C:\Ency
    

    YEARPATH初版・百科年鑑のCD-ROM上のディレクトリ
    DATAPATH初版・百科便覧のCD-ROM上のディレクトリ
    BASE用ファイル群(HTML等)を作成する基準ディレクトリ

    ConvData.bat を実行します。

     C:\encytk> convdata
    

    %BASE% ディレクトリ("SET BASE=" で設定したディレクトリ)に、以下のファイルが作成されます。

    year.txt 百科年鑑のテキスト抽出結果。
    data.txt 百科便覧のテキスト抽出結果。
    year.html 用:百科年鑑
    data.html 用:百科便覧
    fig/*.jpg YEARBOOK\DAT\PICT.DATに含まれるJPEGファイル(345個)

    現在ディレクトリに以下のファイルが作成されます。

    PICT/*.EMF - DATABOOK\DAT\PICT.DATに含まれるEMFファイル(702個)

    %BASE%\ency.ebsをエディタで開き、末尾に次の2行を追加して下さい。
    ※後ほどEBStudioでency.ebsを開いた後に、画面上で追加してもかまいません。

    	Source=$(BASE)\year.html;_;_;HTML;
    	Source=$(BASE)\data.html;_;_;HTML;
    
  6. 例示探索を追加する場合は、「補遺2:例示探索のメニュー化」を実行します。
  7. EMFファイルをJPEGに変換します。現在ディレクトリのPICTとMETAディレクトリの下にある*.EMFをJPEGに変換し、変換したファイルを%BASE%/figの下に置いてください。拡張子を除くファイル名は同じにします。
    META/*.EMF → %BASE%/fig/*.jpg
    PICT/*.EMF → %BASE%/fig/*.jpg
    
  8. でJIS X4081に変換します。(15分くらいです)
  9. 変換結果を確認します。
ファイルサイズ

で作成したJIS X4081(EPWING)のHONMONのサイズは次の通りです。

1.テキスト+インライン画像+リンク画像725MB
2.テキスト+インライン画像280MB
3.テキストのみ260MB

以上は35万語の総索引(前方一致+後方一致)を付けた場合です。-k=0オプションで8万語の項目見出しだけにした場合、約60MB 小さくなります(1.の場合で、725MB→665MB)。 また、著者リンクと関連項目リンクを省略すると、さらに約40MB 小さくなります。

JPEGファイルの圧縮率を調整すると、サイズを小さくできます。 60%くらいまで落としても実用上は問題ありません。

■補遺1:Windows98での実行について

  1. MS-DOSプロンプトを開く。
  2. タイトルバーを右クリックして「プロパティ」画面を開くと「メモリ」タブがあるので、「環境変数の初期サイズ」に1024以上の値を選ぶ。
  3. Convert.batをコマンドラインから実行する。
    ※ エクスプローラからダブルクリックは駄目です!

■補遺2:例示探索のメニュー化

例示探索を、JIS X4081のメニューに変換することができます。 Convert.batの変換後、以下の手順を追加で行って下さい。
※例示探索は、初版、および第2版プロフェッショナル版のみ含まれます。 ベーシック版、モバイル対応版、ライブラリリンク対応版では実行できません。

■補遺3:EMF(WMF)からJPEGへの変換について

●ViX

ViXは K_OKADA 氏が開発されたフリーの統合画像ビュアーです。

  1. 変換する画像を選択し、画像(I)→フォーマット一括変換(V)→JPEGを実行します
  2. 変換後の画像ファイルを格納するフォルダに fig/ を選択します。
  3. 変換は高速で、変換結果も概ね良好です。ただし一部図版で線がかすれたり消えたりする問題があります(例:五線譜、将棋の駒)。
    h_ito氏による「かすれ改善手法」で改善することが可能です(次項)。
●ViX(かすれ改善手法)

ViXを利用してのフォーマット変換の際に、一部の図版の 線がかすれ現象を改善する方法(h_ito氏)

OS: Microsoft Windows XP SP1a
  1. [画面のプロパティ]→[設定]→[詳細設定]→[DPI設定]で "カスタム設定"を選択、200%(=192dpi)に設定→再起動
  2. ViXを利用しEMFを(本来のサイズの縦横2倍の)BMPに変換 (総ファイルサイズ:15GB)
  3. 画面の解像度を元に戻す(標準の96dpi)
  4. 縦横2倍のBMPを本来のサイズにバイキュービック法で縮小 (ViXでは[画像]→[総合変換]→[リサイズ]で"三次補間"をチェック)
  5. BMPをJPEGに変換 (ViXでは[画像]→[フォーマット一括変換]→[JPEG]を選択)

以上の手順で、かすれる線を救うことが出来ました。
画像は(当然ながら)アンチエイリアスの効いた状態になります。 この点は嬉しい人とそうでない人に分かれるところでしょうか。 (エッジ強調などの併用で更に改善できるかもしれません)
また解像度についてはいろいろな選択肢がありそうですが、 あとで画像を縮小することを考えれば、無理の無い補間が可能な 整数倍(96dpi→192dpi)の設定が良いかと思います。
なお192dpiでEMFから変換された画像にも1ピクセル幅の線が 多数存在しますので、縮小の工程ではこれらの線をよく再現可能な バイキュービック補間の利用が必須かと思います。
(あるいは"線がかすれない最低限の解像度"を探し、少し大きな  画像をそのまま利用するといった方法も考えられます)

●meta2jpeg

■コマンド一覧

●cx2text (by Junn Ohta)

世界大百科事典の本文をテキスト化

cx2text [-i <datPath>] [-e <EncyPath>] [itemno]

	-i <datPath>	ITEM.DAT の存在するパス
	-e <EncyPath>	世界大百科事典のインストールディレクトリ
	[itemno]	特定の項目番号のみ変換

※出力先は現在ディレクトリ

cx2text.exeは、世界大百科事典の次のファイルを使用します:
ITEMLOC.DAT項目参照表(項目とITEM.DAT, ITEMLINK.DATへの対応表)
ITEM.DAT本文データ

●stgdump (by hishida)

META.STGに含まれる圧縮EMFを外部ファイル化

stgdump <infile> [-o <outpath>] [-s]

	<infile>	入力ファイル(=META.STG)
	-o <outpath>	出力ディレクトリ。省略した場合は現在ディレクトリ
	-s		ファイル名の先頭一文字を削除(世界大百科辞典のMETA.STG専用)
●cx2data (by Junn Ohta)

世界大百科事典の圧縮図版をEMF(WMF)またはJPEGに変換

cx2data -p <pathname> [pictno]

 または

cx2data -f <filename>

	-p <pathname>	pict.idx pict.dat の存在するディレクトリ
	-f <filename>	META.STGから取り出した圧縮EMFファイル

※出力先は現在ディレクトリ

●cx2html (by hishida)

世界大百科事典テキスト(cx2textの出力ファイル)を、の入力形式のHTMLに変換

cx2html [-f={0|1|2}] [-a={0|1}] [-l={0|1}] [-k={0|1}] [-g={jpg|bmp}] [-t={0|1}]
	<item.txt> -e <EncyPath> 
	[-o <outPath>] [-p <epwingPath>]
	[-x={0|1|2|3}]

	<item.txt>	cx2text.exe で変換したテキストファイル
	-e <EncyPath>	世界大百科事典のインストールディレクトリ
	-o <outPath>	出力ファイルを作成するディレクトリ
	-p <epwingPath>	JIS X4081辞書を作成する出力ディレクトリ 
	[-f={0|1|2}]	画像の指定
			-f=0	作成しない
			-f=1	インライン画像とリンク画像を作成(デフォルト)
			-f=2	インライン画像のみ作成
	[-a={0|1}]	著者リンク
			-a=0	著者リンクを作成しない
			-a=1	著者リンクを作成する(デフォルト)
	[-l={0|1}]	関連項目
			-l=0	関連項目リンクを作成しない
			-l=1	関連項目リンクを作成する(デフォルト)
	[-k={0|1}]	総索引の使用
			-k=0	総索引(35万語)を使用しない。この場合は項目見出し(8万語)からインデックスを作成
			-k=1	総索引(35万語)を使用する(デフォルト)
	[-g={jpg|bmp}]	画像の拡張子(デフォルトは"jpg")
	[-t={0|1}]	DDWin用オフセット調整
			-t=0	調整しない
			-t=1	調整する(デフォルト)
		※DDWinで同じ項目で検索結果が複数ある場合、最適化で見出し項目が
		 消える現象が生じる。このため見出し項目以外の索引について、
		 本文アドレスを調整する。DDWin以外では必要ない。
	[-x={0|1|2|3}]	変換種別
			-x=0	本文(デフォルト)
			-x=1	百科年鑑(初版)
			-x=2	百科便覧(初版)
			-x=3	例示探索(REIJI.DAT)

cx2html.exe -x=0 は、<EncyPath>に格納された次のファイルを使用します:
ITEMLOC.DAT項目参照表(項目とITEM.DAT, ITEMLINK.DATへの対応表)
ITEMLINK.DAT関連項目のリンクデータ
TITLEZ.DAT項目タイトル
SINIDX.DB総索引(35万語)
TITLE.DAT索引タイトルおよびリンク
AUTLOC.DAT著者情報管理テーブル;AUT.DATとAUTLINK.DATへのリンク
AUT.DAT 著者情報テキスト
AUTLINK.DAT著者から本文への参照表

■ファイル形式

●skel/gaiji.tbl - 外字置換表

[凡例]

フォント名 HDHGOT - HDHゴシック(本文で使用される)
HDHLG - HDHリストゴシック(タイトルで使用される)
ShiftJIS当該フォントで使用されている文字コード(ShiftJIS)
検索文字列EPWINGビューアの検索時に使用する代替文字。未定義は"NULL"を指定する。
置換文字列表示に使用する代替文字。の定義済要素名が使用できる
未定義は"NULL"

	# 外字置換表	2003/11/30
	# フォント名,ShiftJISコード,検索文字列,置換文字列
	HDHLG,	00A1,	S,	&Scaron;
	HDHLG,	00A2,	A,	&Auml;
	HDHLG,	00A3,	O,	&Ouml;
	HDHLG,	00A4,	U,	&Uuml;
	..
	HDHLG,	00A9,	H,	NULL
	..
	HDHGOT,	00B1,	NULL,	&apos;
	HDHGOT,	814C,	NULL,	&amacr;
	HDHGOT,	814F,	NULL,	&emacr;
	..

	HDHGOT,	88D2,	NULL,	侠
	HDHGOT,	8965,	NULL,	剥
	HDHGOT,	898F,	NULL,	卿
	...
	HDHLG,	F062,	NULL,	剥
	HDHLG,	F06F,	NULL,	卿
	HDHLG,	F17B,	NULL,	淫
	HDHLG,	F194,	NULL,	灘
	...

■マイペディア・ソースネクスト版について

2004年に日立システムアンドサービスから発売された「世界大百科事典 第2版 & マイペディア」付属の「マイペディア」は、「世界大百科事典 第2版」と共通のフォーマットを採用しているため、当Toolkitで変換できます。
2004年6月にソースネクスト株式会社から発売された「マイペディア」も同じ製品のため、同様の手順で変換できます。以下に変換方法を解説します。

●変換方法

Ver1.01から、マイペディア専用のバッチファイルを添付しました。
作業の過程で、マイペディアのデータファイルを作業ディレクトリに複写します。ディスクに約200MBの空き領域が必要です。

  1. マイペディアをインストールします。
  2. 変換Toolkitを適当なディレクトリに解凍します。
    例:D:\Work
  3. ConvMYP.bat(マイペディア専用) のパス指定を、2.の作業ディレクトリに変更します。

    set ENCYPATH=C:\Program Files\Mypaedia110 - マイペディアをインストールしたディレクトリ
    set DATPATH=C:\Program Files\Mypaedia110 - マイペディアをインストールしたディレクトリ
    set BASE=D:\Work - Toolkitを展開したディレクトリ
    set EPWING=D:\Work - 実際にJIS X4081を出力したいディレクトリを指定してください
    

  4. ConvMYP.batを実行します。
  5. PICT/00000035.emf をViX等の手段でjpegに変換し、fig/00000035.jpg に複写します。
  6. EBStudioで myp.ebs(マイペディア専用) を読み込みます。 基準ディレクトリと出力先を指定してください。
  7. EBStudioでファイル(F)→実行(G)で変換します。

■FAQ

Q1.外字が表示されない、または化けています。

A1. 当Toolkitでは、PCにインストールされたHDHゴシックおよびHDHリストゴシックフォントから外字ファイルを作成します。お使いのPCにこれらのフォントがインストールされているかどうかご確認ください。
フォントがインストールされていても外字が変換されない場合、Windos95/98の場合は、フォントキャッシュ(WindowsフォルダにあるttfCache)を削除すると直る場合があります。


Q2.世界大百科事典の検索に比べて、ヒット数が少ないようです。

A2. EPWINGビューアの仕様によるものです。「世界大百科事典」では、同じ本文に対して同じ読みの索引が複数付けられていることがあります。EPWINGビューアは、読みに対する検索結果が複数ある場合、重複を除去する作業をします。このため、「世界大百科事典」で同じ項目に同じ読みの索引が複数ある場合は、重複と見なされて除去され、ヒット数が減ってしまいます。ビューアによっては設定で回避できることがあります。

ViewIng

設定(R)→単語検索の設定(I)→「検索結果を最適化する(P)」のチェックを外す (前方一致と後方一致両方とも)

Jamming

オプション(O)→環境設定(P)→辞書別→「世界大百科事典」を選択→「本文が同じ項目は表示しない」のチェックを外す

DDWin

ツール(T)→オプション(T)→検索→「該当項目リストの並び替え」を「しない」

※DDWinは辞書毎の設定ができないため、上記の設定をすると、他の辞書で同じ項目が2回以上一致する不具合が生じます。

Q3.PDAで使用するために辞書をなるべく小さくしたいのですが。

A3.

  1. Convert.bat の中の cx2html のオプションで、画像、著者リンク、関連項目、総索引(35万語)のそれぞれの使用を選択できますので、不要なものを削除します。最小構成は次の通りです:
    cx2html.exe -f=0 -a=0 -l=0 -k=0 "%BASE%\item.txt" -e "%ENCYPATH%" -o "%BASE%" -p "%EPWING%"
    
    インライン画像のみ使用したい場合は:
    cx2html.exe -f=2 -a=0 -l=0 -k=0 "%BASE%\item.txt" -e "%ENCYPATH%" -o "%BASE%" -p "%EPWING%"
    
  2. の「インデックスの指定」オプションで、不要なインデックスのチェックを外します。 最小構成は、「前方一致表記検索」「前方一致かな検索」のみです。
  3. 以上の条件を整えてで変換を行うと、最小構成の「世界大百科事典」が作成できます。200MB前後のはずです。
  4. Buckinghamのようにebzip形式が使用できるビューアの場合は、圧縮をかけることでさらに小さくできます。Buckingham EB Compressor または ebzip が使用できます。


Q4.ViewIngで画像を表示しようとすると異常終了します。

A4. ViewIngはEPWING V2準拠なので、JPEG画像を表示できません。 画像を全く使用しないか、またはBMP画像に変換します。BMPを使用する手順は:

  1. 全てのJPEG画像をBMP画像に変換する。IrfanViewが使用できる。
  2. cx2html のオプションに -g=bmp を付けて実行する。


Q5.索引の検索で見出し項目以外(検索結果見出しの頭に○+△が付かないもの)を選択すると、本文の表示開始位置が一行ずれるのが気になります。

A5. DDWinの表示のトラブル対策です。DDWin以外のビューアをお使いの場合は、cx2htmlのオプションで-t=0(オフセット調整をしない)を選択すると、見出し行から表示されます。
EPWINGビューアでは通常、検索結果が複数ある場合に、同じ項目が2件以上表示されないように表示の最適化を行います。ところが DDWinだけは最適化の時に見出し項目の方が削除されてしまうので、見出し項目とその他の項目で表示開始位置をずらしています。


Q6.世界大百科事典第2版を仮想ディスクで使用しており、検索ディスクと探索ディスクの2枚をマウントしています。\Ency\Dat\ITEM.DAT は両方のディスクに含まれています。Convert.bat の 「set DATPATH=」 にはどちらを指定すべきでしょうか。

A6. 検索ディスクと探索ディスクには同じファイルが重複して格納されていますので、どちらを指定してもかまいません。


Q7.Buckingham EB Player(Win)で外字が化けて表示されます。

A7. 同時に使用している辞書の数が多すぎることが原因です。使用する辞書の数を減らして下さい。


Q8.DDWinでページ違反が生じます。

A8. 図版のEMF→JPEG変換が漏れていて図版ファイルが足りない 可能性があります。画像の変換を確認して下さい。なお、 表示(V)→インライン画像(I)のチェックを外すとエラーはでなくなります。


Q9.「ウシ(牛)」の項を「牛」で表記検索できません。他にも()内の語を表記で検索できない項目があります。

A9. 世界大百科事典の総索引にもともと含まれていない検索語では、検索できません。 添付のperlスクリプト AddIndex.plを使用すると表記検索を追加できます。

	perl AddIndex.pl < Ency.html > Ency2.HTML
	del Ency.html
	ren Ency2.HTML Ency.HTML


Q10.EBView 0.3.3で検索すると、一部の項目が文字化けします。DDWinや他のビューアでは化けません。

A10. [設定]→[外観]→[その他]で「検索語を強調表示する」のチェックマークを外してください。


Q11.総索引(35万語)からの変換を指定しているはずなのに、変換されていません。

A11. Convert.batのset ENCYPATH=で指定されるディレクトリに、SINIDX.DBがありません。 ENCYPATH=にCD-ROM上のパスを指定するか、SINIDX.DBをCD-ROMからハードディスク(ENCYPATH)に複写して下さい。

■履歴

2005/03/13 Ver1.03
  • 図版の直後には改行を入れる(EBStudio1.65以降の仕様変更に合わせる)
  • 百科便覧は項目毎に表示終了タグを入れる。
  • 一部項目で著者名の後で改行しない問題を修正(例:「頭(かしら)」)
2005/02/27 Ver1.02
  • cx2data(世界大百科事典の圧縮図版をEMF(WMF)またはJPEGに変換)のバージョンアップ(0.1→0.2)
    EMFの変換時のデータ不正の修正。
    ※従来は変換できない画像のキャプチャが別途必要でしたが、今回から必要なくなりました。
    ■補遺3:EMF(WMF)からJPEGへの変換について
2005/01/31 Ver1.01
  • 同一項目に複数の仮名または複数の表記インデックスがあるケースに対応。
    (例:マイペディアの【とう】小平は「とうしょうへい」と「とんしあおぴん」の二つの読みあり)
  • ソースネクスト版マイペディア変換用バッチファイルを添付し、作業手順を単純化する。
  • 関連項目は項目毎に表示終了タグを入れる。
    Toolkit1.01での変換には、EBStudio1.66以降が必要です。
2004/10/10  
  • 「ViXのかすれ改善手法」を追加(情報提供h_ito氏)
2004/06/20  
2004/05/23  
  • 2004/5月発売の「第2版&マイペディア版」の設定情報を追加。
2004/02/08 Ver1.00
  • 総索引にない表記インデックスを追加するperlスクリプトAddIndex.plを添付。
  • meta2jpegの記述を追加
2003/12/31 Ver0.8
  • 一部図版のリンクの参照先が正しくないbug修正(例:「アイスホッケー」)
2003/12/29 Ver0.7
  • 『百科便覧・統計』のグラフが表示されないbug修正
  • 項目中の図版が多すぎると表示されないbug修正(例:「数学パズル」)
  • 同じ項目で同じ図版が複数回参照されているとき、参照回数だけ画像が出力されていたbug修正(例:「リンドウ」)
2003/12/20 Ver0.6
  • 例示探索のメニュー化(「補遺2:例示探索のメニュー化」)。 例示探索は初版と第2版プロフェッショナル版のみ含まれるので、追加作業とした。
  • 初版の百科年鑑・便覧対応
  • -k=0で作成したとき、本文表示アドレスがずれるbug修正
  • 総索引の改良(オフセット調整による表示位置ずれを減らした)。EBStudio1.62bをご利用下さい。
2003/12/14 Ver0.5
  • 世界大百科事典で定義された総索引(35万語)と検索見出しに対応。1.62以降が必要。
    ただしHONMONが従来より約60MB大きくなる。 サイズ優先の場合、-k=0を指定すると従来通り項目見出し(8万語)のみの索引になり、コンパクトにできる。
    なお、索引を使用した場合はクロス条件検索は作成しない。
  • 百科年鑑・百科便覧を複合検索とメニューで実現
  • ency.ebsはcx2html.exeで作成するように変更
2003/12/06 Ver0.4
  • 次のパターンでかな検索ができない問題修正。
    「ナイマン(乃蛮)」
    「イリフ=ペトロフ」
    「サバルタン・スタディーズ」
  • 項目の途中で執筆者が変わった直後に、改行されないbug修正。
  • JIS X0208外字への置き換えの定義を増加。
  • 外字をJIS X0208やISO 8879定義済エンティティに置換した場合は、その外字を出力しないようにし、外字個数を減らす。
2003/12/03 Ver0.3
  • "ナポレオン[1世]"のケースでかな検索追加
  • レイアウトの改善
    1. 小見出し毎に字下げ量をリセットする。(DDWinで下スクロールした時、ブロックをまたぐときに字下げが消える問題を軽減する。)
    2. 余分な改行の削除
  • 著者リンクの追加
  • 関連項目リンクの追加
  • 「地球探索」のテキストで、<A REFID="11851000"></A>のようにタイトル文字列が省略されているものを補完
  • 外字置換を外部ファイルで定義可能とする(skel/gaiji.tbl)
  • 画像、関連項目、著者リンクの有無をオプションで選択可とする
2003/11/29 Ver0.2a
  • 目次項目数の上限を増加(Win98でcx2htmlが最後まで実行できないbug修正)
2003/11/24 Ver0.2
  • 画像に対応。
  • 外字周りの修正。
    1. 参照されない外字は出力しない
    2. 半角外字は、できるだけ&aacute; のような要素名に置き換える。
    3. 半角外字は、字母のアルファベットで検索可能( á は a で検索できる)
  • 項目毎の目次に対応。
  • "松本[市]"を松本市で検索できない問題修正
  • 英語見出しが"‖"区切りで複数列記されているケースに対応
2003/11/21 Ver0.1
  • テキストと外字の変換。
2003/11/17
  • fj.comp.applications.dictionary にて太田純氏が解読成功をpost。
    From:Junn Ohta (ohta@src.ricoh.co.jp)
    Subject:解読完了 ! (Re: 世界大百科事典) 
    Newsgroups:fj.comp.applications.dictionary
    Date:2003-11-17 08:50:18 PST  
    

■謝辞

世界大百科事典を解析し、テキスト化プログラム cx2text をパブリックドメイン として公開された太田純氏、並びに解析作業に協力された藤井 宏憲氏に、心より感謝の意を表します。

■参考資料

【世界大百科事典】
【開発】

hishida@bg.mbn.or.jp

© Copyright 2003 Junn Ohta, hishida