[No.3419] ブリタニカQuickSearch2006 投稿者:ぼすとん  投稿日:2006/06/03(Sat) 15:06
[関連記事

ブリタニカ国際大百科事典2006をToolKitで試してみました。
が、以下のメッセ-ジでConvertはボツでした。
Not enough arguments for mkdir at ./tbs_b/pl line 126, near “”BOJ/data/images”)”
Not enough arguments for mkdir at ./tbs_b/pl line 1671, near “”$_dstdir/$_tmpname”)”
Execution of ./tbs_b/pl aborted due to compilation errors.

時間のあるときにぼちぼち原因究明をしてみようかと思うのですが
以前膨大にあった過去ログってもうアクセスはできないんでしょうかね?
今アクセスできるのは2005関連の宮川氏の1件だけでした・・・

[No.3420] Re: ブリタニカQuickSearch2006 投稿者:hishida  投稿日:2006/06/03(Sat) 19:36
[関連記事

> ブリタニカ国際大百科事典2006をToolKitで試してみました。
> が、以下のメッセ-ジでConvertはボツでした。
> Not enough arguments for mkdir at ./tbs_b/pl line 126, near “”BOJ/data/images”)”
> Not enough arguments for mkdir at ./tbs_b/pl line 1671, near “”$_dstdir/$_tmpname”)”
> Execution of ./tbs_b/pl aborted due to compilation errors.
>

見出しには「ブリタニカQuickSearch2006 」とあり、本文では「ブリタニカ国際大百科事典2006」とありますが、
そもそも「ブリタニカ国際大百科事典QuickSearch Version」の2006年版は発売されていないと思います。2004年版が最後だと思います。(間違っていたらごめんなさい)
もし英語版のEncycropaedia Britannica 2006 のことをおっしゃっているのなら、
Toolkitで変換できません。

> 時間のあるときにぼちぼち原因究明をしてみようかと思うのですが
> 以前膨大にあった過去ログってもうアクセスはできないんでしょうかね?
> 今アクセスできるのは2005関連の宮川氏の1件だけでした・・・

過去ログも検索できますよ。

[No.3423] Re: ブリタニカQuickSearch2006 投稿者:ぼすとん  投稿日:2006/06/03(Sat) 21:14
[関連記事

hishida様

もちろん日本語版QuickSearch版CD2枚組です。2005年版も2006年版も出ています。
毎年更新しているのはさすがだと思いつつ、さほど内容に変更はないのだから
デ-タ構造も同じだろうとタカをくくっておりましたら、どうも抹茶餡氏の情報では
暗号化方式も以前の排他論理和から変更になっているのですね?
これは手強そうだ。。。

> 見出しには「ブリタニカQuickSearch2006 」とあり、本文では「ブリタニカ国際大百科事典2006」とありますが、
> そもそも「ブリタニカ国際大百科事典QuickSearch Version」の2006年版は発売されていないと思います。2004年版が最後だと思います。(間違っていたらごめんなさい)
> もし英語版のEncycropaedia Britannica 2006 のことをおっしゃっているのなら、
> Toolkitで変換できません。
>
> > 時間のあるときにぼちぼち原因究明をしてみようかと思うのですが
> > 以前膨大にあった過去ログってもうアクセスはできないんでしょうかね?
> > 今アクセスできるのは2005関連の宮川氏の1件だけでした・・・
>
> 過去ログも検索できますよ。

[No.3421] Re: ブリタニカQuickSearch2006 投稿者:抹茶餡  投稿日:2006/06/03(Sat) 20:27
[関連記事

はじめまして。先月末に2006年版のブリタニカ国際大百科事典Quick Se
arch Versionを入手した者です。EPWING化しようとしたのですが、2006
年版では暗号化方式が異なるため、そのままではToolkitで変換できな
いことがわかり、調査しておりました。情報の共有ができればと思い投
稿いたします。

よろしければ、Toolkitを試されたときの状況を詳しく教えてください


参考までに、私の気づいた点は、以下の通りです。
・everest.ddfとitemlist.idxが存在しない。これら対応するものとし
てSALL.datとSITEM.datがあるが、暗号化方式が異なる。
・画像ファイルのディレクトリ構成等はおそらく変わっていない。

私は、SALL.datとSITEM.datをそれぞれeverest.ddfとitemlist.idxと
同じ形式に変換してから、toolkitで変換できるかどうかを試そうとし
ています。4バイトずつに区切り、0xffffffffとの排他的論理和をとっ
て0x81361722を加えることで復号できると思います。ただし、各項目の
終わりの数バイトは例外で、調整する必要があります。例えば、SALL.d
atの「アア」の項目では、終わりの</di まではそのまま復号でき
るのですが、その次の3バイトは同じ方法では復号できません。そのあ
とで次の項目が<Item>から始まっているようです。

最後に、この場をお借りして質問したいことがあります。お答えいた
だける方いらっしゃいましたらお願いいたします。2004年版以前のever
est.ddfでは、項目の終わりの</div>と次の項目の<Item>
の間には何か文字が含まれていますでしょうか。

[No.3425] Re: ブリタニカQuickSearch2006 投稿者:ぼすとん  投稿日:2006/06/04(Sun) 09:46
[関連記事

抹茶餡様

再度確認しました。最初ActivePerl5.2.2でやっていたので前述のエラ-でしたが
5.8.8でやったところ、everest.ddfが見つからないというメッセ-ジで止まりました。
仰せの通り、デ-タ本体がeverest.ddfからSALL.datに変更になったためと思われます。
OSはWinXpSP2とWin98SE、DaemonToolでcueファイルを仮想CDにマウントして
CD直接とインスト-ル後の計4通りで試しました。結果はすべて同じです。
古い版のCDが入手できれば、比較解析が容易なのですけどね。


> はじめまして。先月末に2006年版のブリタニカ国際大百科事典Quick Se
> arch Versionを入手した者です。EPWING化しようとしたのですが、2006
> 年版では暗号化方式が異なるため、そのままではToolkitで変換できな
> いことがわかり、調査しておりました。情報の共有ができればと思い投
> 稿いたします。
>
> よろしければ、Toolkitを試されたときの状況を詳しく教えてください
> 。
>
> 参考までに、私の気づいた点は、以下の通りです。
> ・everest.ddfとitemlist.idxが存在しない。これら対応するものとし
> てSALL.datとSITEM.datがあるが、暗号化方式が異なる。
> ・画像ファイルのディレクトリ構成等はおそらく変わっていない。
>
> 私は、SALL.datとSITEM.datをそれぞれeverest.ddfとitemlist.idxと
> 同じ形式に変換してから、toolkitで変換できるかどうかを試そうとし
> ています。4バイトずつに区切り、0xffffffffとの排他的論理和をとっ
> て0x81361722を加えることで復号できると思います。ただし、各項目の
> 終わりの数バイトは例外で、調整する必要があります。例えば、SALL.d
> atの「アア」の項目では、終わりの</di まではそのまま復号でき
> るのですが、その次の3バイトは同じ方法では復号できません。そのあ
> とで次の項目が<Item>から始まっているようです。
>
> 最後に、この場をお借りして質問したいことがあります。お答えいた
> だける方いらっしゃいましたらお願いいたします。2004年版以前のever
> est.ddfでは、項目の終わりの</div>と次の項目の<Item>
> の間には何か文字が含まれていますでしょうか。

[No.3427] Re: ブリタニカQuickSearch2006 投稿者:ぼすとん  投稿日:2006/06/04(Sun) 18:27
[関連記事

参考までにQuick Search Version(2006年版)のディレクトリ構造です。
Sall,Sitem,Skoumoku,Sprintのファイル構造[dat,pos]がキ-のようですね。
◎CD1枚目
"JBCD2006_1"
/Autorun/
/Data/
/data
Sall.[dat,pos] 161MB 本文ファイル?
Sitem.[dat,pos] 9MB
Skoumoku.[dat,pos] 25MB 項目インデックス?
Sprint.pos
/Honmon/everest.[ADD,IDX,INI,PRA]
/Other/everest.[ADD,IDX,INI,PRA]
/top/
/topics/
/whatday/
/Html
/images
/orghtml
/Templates
/Setup/
/Files/
/soft/
/netscape/
/Shockwave/
◎CD2枚目
"JBCD2006_2"
/Boj/
/data/
/flag/ 国旗
/letter/ 外字
/map/ 地図
/math/ 数式
/ph1/ 写真
/ph2/ 写真
/ph3/ 写真
/movies/ mpg動画
/sound/ wavファイル
/picture/ 図
/top/ 表紙用画像
/data
Sprint.dat
/Setup ←CD1枚目と同じ内容

> 抹茶餡様
>
> 再度確認しました。最初ActivePerl5.2.2でやっていたので前述のエラ-でしたが
> 5.8.8でやったところ、everest.ddfが見つからないというメッセ-ジで止まりました。
> 仰せの通り、デ-タ本体がeverest.ddfからSALL.datに変更になったためと思われます。
> OSはWinXpSP2とWin98SE、DaemonToolでcueファイルを仮想CDにマウントして
> CD直接とインスト-ル後の計4通りで試しました。結果はすべて同じです。
> 古い版のCDが入手できれば、比較解析が容易なのですけどね。
>
>
> > はじめまして。先月末に2006年版のブリタニカ国際大百科事典Quick Se
> > arch Versionを入手した者です。EPWING化しようとしたのですが、2006
> > 年版では暗号化方式が異なるため、そのままではToolkitで変換できな
> > いことがわかり、調査しておりました。情報の共有ができればと思い投
> > 稿いたします。
> >
> > よろしければ、Toolkitを試されたときの状況を詳しく教えてください
> > 。
> >
> > 参考までに、私の気づいた点は、以下の通りです。
> > ・everest.ddfとitemlist.idxが存在しない。これら対応するものとし
> > てSALL.datとSITEM.datがあるが、暗号化方式が異なる。
> > ・画像ファイルのディレクトリ構成等はおそらく変わっていない。
> >
> > 私は、SALL.datとSITEM.datをそれぞれeverest.ddfとitemlist.idxと
> > 同じ形式に変換してから、toolkitで変換できるかどうかを試そうとし
> > ています。4バイトずつに区切り、0xffffffffとの排他的論理和をとっ
> > て0x81361722を加えることで復号できると思います。ただし、各項目の
> > 終わりの数バイトは例外で、調整する必要があります。例えば、SALL.d
> > atの「アア」の項目では、終わりの</di まではそのまま復号でき
> > るのですが、その次の3バイトは同じ方法では復号できません。そのあ
> > とで次の項目が<Item>から始まっているようです。
> >
> > 最後に、この場をお借りして質問したいことがあります。お答えいた
> > だける方いらっしゃいましたらお願いいたします。2004年版以前のever
> > est.ddfでは、項目の終わりの</div>と次の項目の<Item>
> > の間には何か文字が含まれていますでしょうか。

[No.3433] Re: ブリタニカQuickSearch2006 投稿者:抹茶餡  投稿日:2006/06/05(Mon) 18:45
[関連記事

ぼすとん様

おっしゃる通り、datとposがキ-のようです。これら以外のファイルは特にいじらなくても、ToolkitでEPWING化できるのではないかと思います。

・SALL.DAT
everest.ddfに対応しています。元のデ-タの形式は同じです。

・SALL.POS
SALL.DAT中の、各項目のデ-タの開始位置と、デ-タの大きさ(バイト)の情報が含まれています。

・SITEM.DAT
itemlist.idxに対応しています。暗号化方式はSALL.DATと同じです。itemlist.idxでは1項目あたり128バイトで固定ですが、SITEM.DATは1項目の文字数が異なる上、各項目のデ-タが連続しています。

・SITEM.POS
SITEM.DAT中の、各項目のデ-タの開始位置と、デ-タの大きさ(バイト)の情報が含まれています。

・暗号化・復号化の方式
各項目の開始位置から4バイトずつに区切って、0xffffffffとの排他的論理和をとり、0x81361722を加える。
項目の終わりで1〜3バイトの余りが生じる場合、それぞれ0xffとの排他的論理和をとる。

[No.3426] Re: ブリタニカQuickSearch2006 投稿者:hishida  投稿日:2006/06/04(Sun) 11:00
[関連記事

ぼすとん様、抹茶餡様、2005版、2006版があったのですね。大変失礼しました。浅学非才をお許しください。

> 参考までに、私の気づいた点は、以下の通りです。
> ・everest.ddfとitemlist.idxが存在しない。これら対応するものとし
> てSALL.datとSITEM.datがあるが、暗号化方式が異なる。
> ・画像ファイルのディレクトリ構成等はおそらく変わっていない。

なるほど、デ-タ形式が変わったのですね。

> 私は、SALL.datとSITEM.datをそれぞれeverest.ddfとitemlist.idxと
> 同じ形式に変換してから、toolkitで変換できるかどうかを試そうとし
> ています。4バイトずつに区切り、0xffffffffとの排他的論理和をとっ
> て0x81361722を加えることで復号できると思います。ただし、各項目の
> 終わりの数バイトは例外で、調整する必要があります。例えば、SALL.d
> atの「アア」の項目では、終わりの</di まではそのまま復号でき
> るのですが、その次の3バイトは同じ方法では復号できません。そのあ
> とで次の項目が<Item>から始まっているようです。
>
> 最後に、この場をお借りして質問したいことがあります。お答えいた
> だける方いらっしゃいましたらお願いいたします。2004年版以前のever
> est.ddfでは、項目の終わりの</div>と次の項目の<Item>
> の間には何か文字が含まれていますでしょうか。

私の手持ちは2001年版ですが、大きな違いはないと思います。
</div>と<item>の間は、0x0D、0x0Aの改行文字しかありません。

-------
<item>
<table border="0" cellspacing="0" cellpadding="0" width="560">
<tr>
<td valign="top" colspan="3"><font size="+2"><b>アア</b></font></td>
</tr>
<tr>
<td valign="top" width="280"><br>
アア<br>
@aa <br>
</td>
</tr>
</table>
<table width="560" border="0" cellspacing="0" cellpadding="10">
<tr><td> </td></tr>
</table>
<div class="line">
<!-- body -->
ハワイの先住民の言葉で,アア溶岩をさす。玄武岩質の塊状溶岩。表面は凹凸に富み,とげが密集する。溶岩の冷却が急速で,粘性が大。溶岩流の厚さは一般に数@mから数十@m程度。日本の玄武岩質溶岩にもこのタイプが多い。<!-- eob --><br clear=all>
<br></div>
<item>
<table border="0" cellspacing="0" cellpadding="0" width="560">
<tr>
<td valign="top" colspan="3"><font size="+2"><b>アア-</b></font></td>
</tr>
<tr>
<td valign="top" width="280"><br>
アア-<br>
@Aah <br>
</td>
</tr>
</table>
<table width="560" border="0" cellspacing="0" cellpadding="10">
<tr><td> </td></tr>
</table>
<div class="line">
<!-- body -->
エジプト神話における月神。古代の月神の種々の形態のうちの一つで,ほかにト-ト,コンス,オシリスも同じく月神とみなされる。狩猟者や農耕民によって,生命を生み出すもの,およびその守護者として崇拝された。大母神アペト @Apetの息子とも,またアペトが水神として,原初の深淵から生れた「天空上の水」であるヌト @Nutと同一視されるため,ヌトから生れたとも考えられた。イヌの頭やフクロウの顔をもつとされ,また片目が太陽である偉大なタカの左目ともいわれる。<!-- eob --><br clear=all>
<br></div>
-------

[No.3434] Re: ブリタニカQuickSearch2006 投稿者:抹茶餡  投稿日:2006/06/05(Mon) 18:53
[関連記事

hishida様

ご回答くださりどうもありがとうございました。頂いた情報を参考に比較したところ、元のデ-タの形式はeverest.ddfと同じだということがわかりました。

暗号化方式はわかったので、everest.ddfとitemlist.idxと同じ形式のデ-タを作成し、ToolkitとEBStudioを試してみました。

結果、いくつかエラ-が出たものの、EPWING化できました。ただし、itemlist.idxへの変換段階で私がミスしていたため、検索できない項目がたくさんあります。

確証はありませんが、正しく前処理すればEPWING化できると思います。再度挑戦してみます。以上、中間報告でした。

[No.3435] EPWING化成功 投稿者:抹茶餡  投稿日:2006/06/06(Tue) 12:58
[関連記事

以下の手順でEPWING化に成功しましたので報告します。

(1)SALL.DATをeverest.ddf形式に変換
(2)SITEM.DATをitemlist.idx形式に変換
(3)上記のファイルをToolkitのsetup.plのAppdirに移動
(4)ToolkitとEBStudioを実行

開始時刻:2006/06/06 12:02:17
[ブリタニカ]
著作権情報…done
本文…
(1)(基準ディレクトリ)\help.html
(2)(基準ディレクトリ)\menu.html
(3)(基準ディレクトリ)\whatday.html
(4)(基準ディレクトリ)\bqstk101\jbcd.html
done
カラ-図版…done
図版総数=(17082)個
PCM音声…done
音声総数=(33)個
メニュ-…(768)
前方一致表記インデックス…(269770)個
後方一致表記インデックス…(269770)個
条件検索インデックス…(257318)個
前方一致仮名インデックス…(202343)個
後方一致仮名インデックス…(202343)個
外字(8x16)…(257)個 done
外字(16x16)…(159)個 done
アンカ-総数…(164199)個
リンク総数…(262082)個
(出力先)\JBCD\DATA\HONMON ( 574300160 bytes )
終了時刻:2006/06/06 12:16:30
-------------------------
カタログを作成しました。
処理を完了しました。

[No.3513] EPWING化追試 投稿者:ぼすとん  投稿日:2006/10/02(Mon) 11:58
[関連記事

激しく亀レスですが、ブリタニカ2006のEPWING変換を行いましたので報告します。
DDWinからのブラウズではとりあえず何も問題はないように思えますが、
比較対象がないので本当に正常なのかどうかは甚だ自身がありませんので、悪しからず。

使用バ-ジョン
EBStudio
ActivePerl 5.8.8.819

(1)CD1枚目のル-トにあるDATAフォルダを丸ごとC:のル-トにコピ-
(2)CD2枚目はE:ドライブにセット
(3)末尾のExcelマクロを実行し、C:\DATAにeverest.ddfとitemlist.idxを作成
(4)Toolkit1.01のsetup.plで、$CDDir='E:'; と$AppDir='C:'; に修正して、Convert.batを実行
(5)EBStudioを起動し、出力先をc:\britannicaとして実行
・インデックスの指定で、クロス検索(6)と複合検索(7)はjdbc.ebsを読み込んだ時点でチェックなしだったのでそのまま
・EBStudioの変換過程でエラ-が1件、「Line=1362567 <DT></DT> Miss Match!! </dt>」との表示。

気になる点
(1)EBStudioでエラ-が1つ出る点
(2)出力サイズなどが抹茶飴氏と異なる点
→本文のリンク先がVersion=2006Cとなっているのが気になる。2006年版にもいくつかバ-ジョンがあるのかも
(3)項目本文末尾のインタ-ネットリンクの表記が何となく気に入らない。
例: http://www.britannica.co.jp/cgi-bin/url_service.pl?number=36551&version=2006C 小笠原村
「小笠原村」をリンク表示として、URLは隠せないものだろうか。(DDWinの仕様にも絡むでしょうし、実用上何も問題はありませんが。。。)

----------
開始時刻:2006/10/02 10:34:58
[ブリタニカ]
著作権情報…done
本文…
(1)C:\bqstk101\help.html
(2)C:\bqstk101\menu.html
(3)C:\bqstk101\whatday.html
(4)C:\bqstk101\jbcd.html
done
カラ-図版…done
図版総数=(17072)個
PCM音声…done
音声総数=(33)個
メニュ-…(3)
前方一致表記インデックス…(269005)個
後方一致表記インデックス…(269005)個
条件検索インデックス…(202676)個
前方一致仮名インデックス…(202343)個
後方一致仮名インデックス…(202343)個
外字(8x16)…(257)個 done
外字(16x16)…(159)個 done
アンカ-総数…(162297)個
リンク総数…(204179)個
c:\britannica\JBCD\DATA\HONMON ( 566935552 bytes )
終了時刻:2006/10/02 11:13:27
-------------------------
カタログを作成しました。
処理を完了しました。

----------
DefByte A-B
DefInt F, M-N
DefLng C-D, I-L, P-Q

Sub britannica()
Open "D:\data\data\sall.dat" For Binary As #1
Open "D:\data\data\sall.pos" For Binary As #2
Open "D:\data\everest.ddf" For Binary As #3
f = 1
GoSub common
Close
Open "D:\data\data\sitem.dat" For Binary As #1
Open "D:\data\data\sitem.pos" For Binary As #2
Open "D:\data\itemlist.idx" For Binary As #3
f = 2
GoSub common
Close
Exit Sub

common:
For i = 1 To LOF(2) / 8
Cells(f, 1) = i
Get #2, , P
Cells(f, 2) = P
Get #2, , L
Cells(f, 3) = L

For j = 1 To (L \ 4)
N = 0
Get #1, , b1:
Get #1, , b2:
Get #1, , b3:
Get #1, , b4:
m4 = (Not b4) + &H22 + N: If m4 > 255 Then a4 = m4 - 256: N = 1 Else a4 = m4: N = 0
m3 = (Not b3) + &H17 + N: If m3 > 255 Then a3 = m3 - 256: N = 1 Else a3 = m3: N = 0
m2 = (Not b2) + &H36 + N: If m2 > 255 Then a2 = m2 - 256: N = 1 Else a2 = m2: N = 0
m1 = (Not b1) + &H81 + N: If m1 > 255 Then a1 = m1 - 256: N = 1 Else a1 = m1: N = 0
Put #3, , Not a1
Put #3, , Not a2
Put #3, , Not a3
Put #3, , Not a4
Next j
For k = 1 To (L Mod 4)
Get #1, , B
a = Not B
Put #3, , Not a
Next k

If f = 2 Then
a = 0
For k = 1 To 128 - L
Put #3, , Not a
Next k
End If

Next i
Return

End Sub
----------

[No.3514] Re: EPWING化追試 投稿者:hishida  投稿日:2006/10/04(Wed) 19:51
[関連記事

> 激しく亀レスですが、ブリタニカ2006のEPWING変換を行いましたので報告します。
> DDWinからのブラウズではとりあえず何も問題はないように思えますが、
> 比較対象がないので本当に正常なのかどうかは甚だ自身がありませんので、悪しからず。

変換成功おめでとうございます。

> (1)EBStudioでエラ-が1つ出る点

タグが閉じているかを割に厳密にチェックしていて,警告を出しています。
閉じていないタグがある場合、スキップしますので、出力がおかしくなければ、警告は無視していただいて結構です。
元デ-タに問題があることもありますし。

> (3)項目本文末尾のインタ-ネットリンクの表記が何となく気に入らない。
> 例: http://www.britannica.co.jp/cgi-bin/url_service.pl?number=36551&version=2006C 小笠原村
> 「小笠原村」をリンク表示として、URLは隠せないものだろうか。(DDWinの仕様にも絡むでしょうし、実用上何も問題はありませんが。。。)
>

これは他の年次のブリタニカも同じ問題があります。確かに気持ちのいいものではありませんね。
一応ちゃんとリンクに飛びますが,いつブリタニカのサ-ビスが終わるとも限りませんし。
JIS X4081にはURL参照記述子というのがあるのですが、EPWINGで使用されている実例がまだ見つかりません。
仮にEBStudioで対応しても,EPWINGビュ-アで表示できないのでは意味がないので、不細工でもこの表記でしかたがないのかなあと思っています。

[No.3518] お礼 投稿者:ぼすとん  投稿日:2006/10/06(Fri) 00:27
[関連記事

いずれにしましても、おかげさまで平凡社世界大百科、小学館ニッポニカ、ブリタニカを同じプラットホ-ムで串刺し検索できるようになり、このような素晴らしい環境を享受できるのは関係各位のご尽力あってのことと深く感謝しております。今後ともよろしくお願い致します。

[No.3640] ブリタニカ2005のEPWING化 投稿者:tree  投稿日:2007/01/05(Fri) 22:46
[関連記事

もう報告は入ってても不思議ではありませんが。
ブリタニカ国際大百科事典 Quick Search Version』2005年版
ブリタニカ国際大百科事典ToolkitでEPWING化しました。
2004と同じ形式でした。
よいソフトをありがとうございます。

EBStudioで2回のエラ-メッセ-ジがでましたが問題なかったと思います。
私の環境では図版がうまく取り込めませんでした。
(HDDの空き11G Celeron2.4GHz 504MB)
他の人のPCを借りてしました。

▲TOP