[リストへもどる]
一括表示
タイトルEBMakerによるフランス語ユーザー辞書の作成について
記事No2256
投稿日: 2015/02/06(Fri) 11:43:07
投稿者kunio40
EBWinの愛用者です。
v.4.1.0から実装されたEBMakerの「csvからインポート」形式(LibreOffice v.4.3)で、次のフランス語ユーザー辞書サンプルにより作成を試みたところ、完全一致の検索ができず、前方一致、後方一致、全文検索はアクセント記号のある語が検索できません。
なお、Excel 2010のcsvファイルは全て検索できません。

lâchementadv.臆病にも;卑劣に
mixitén.f.男女共学(制);(異文化などの)共存、混淆(こう)
poupéen.f. [英doll] 1.人形 jouer à la poupée人形遊びをする 2. [話]かわいい娘;見てくれだけの女 3.包帯を巻いた指

解決策を御教示いただければ幸いです。 

タイトルRe: EBMakerによるフランス語ユーザー辞書の作成について
記事No2257
投稿日: 2015/02/06(Fri) 15:34:21
投稿者hishida
> EBWinの愛用者です。
> v.4.1.0から実装されたEBMakerの「csvからインポート」形式(LibreOffice v.4.3)で、次のフランス語ユーザー辞書サンプルにより作成を試みたところ、完全一致の検索ができず、前方一致、後方一致、全文検索はアクセント記号のある語が検索できません。
> なお、Excel 2010のcsvファイルは全て検索できません。
>
> lâchementadv.臆病にも;卑劣に
> mixitén.f.男女共学(制);(異文化などの)共存、混淆(こう)
> poupéen.f. [英doll] 1.人形 jouer à la poupée人形遊びをする 2. [話]かわいい娘;見てくれだけの女 3.包帯を巻いた指
>
> 解決策を御教示いただければ幸いです。 

実験しましたができますよ。ただ注意事項がいくつかあります。

1) éのような数値文字参照は、検索文字列の定義には使用できないので、直接unicode文字を指定する必要があります。
したがって、unicodeを含む場合は、入力のファイルの文字コードはUTF-8を推奨します。
ただし、辞書のタイプをHTMLにした場合は、本文のなかだけ、éのような数値文字参照が使えます。

2) 項目区切りは現在のところタブかカンマしか指定できません。
タブが初期設定になっているので、カンマ区切りの場合はファイルを指定する前に区切り文字を先に指定してください。そうしないと見出しの判定がうまく行きません。

3) 1行目に見出し行が必要です。
かつ、認識した見出し行の列に対して、その列が項目見出しなのか、本文なのか、発音記号なのか等を割り当てる必要があります。

4) EXCEL2010のcsvだからだめということはありません。
csvを何で作ろうとかまわないのですが、文字コードと区切り文字がEBMakerで辞書を作成するときの指定と合っているかどうかが問題です。

EBMakerは大幅に説明不足だと思いますが、
こういう基本的なレベルでのバグは無いと思ってください。

どうしてもうまくいかない場合、一旦PDICで作って、PDICのcsv経由で読み込ませる手もあります。

タイトルRe^2: EBMakerによるフランス語ユーザー辞書の作成について
記事No2260
投稿日: 2015/02/07(Sat) 13:19:20
投稿者kunio40
> 実験しましたができますよ。ただ注意事項がいくつかあります。
>
> 1) éのような数値文字参照は、検索文字列の定義には使用できないので、直接unicode文字を指定する必要があります。
> したがって、unicodeを含む場合は、入力のファイルの文字コードはUTF-8を推奨します。
> ただし、辞書のタイプをHTMLにした場合は、本文のなかだけ、éのような数値文字参照が使えます。
>
> 2) 項目区切りは現在のところタブかカンマしか指定できません。
> タブが初期設定になっているので、カンマ区切りの場合はファイルを指定する前に区切り文字を先に指定してください。そうしないと見出しの判定がうまく行きません。
>
> 3) 1行目に見出し行が必要です。
> かつ、認識した見出し行の列に対して、その列が項目見出しなのか、本文なのか、発音記号なのか等を割り当てる必要があります。
>
> 4) EXCEL2010のcsvだからだめということはありません。
> csvを何で作ろうとかまわないのですが、文字コードと区切り文字がEBMakerで辞書を作成するときの指定と合っているかどうかが問題です。
>
> EBMakerは大幅に説明不足だと思いますが、
> こういう基本的なレベルでのバグは無いと思ってください。
>
> どうしてもうまくいかない場合、一旦PDICで作って、PDICのcsv経由で読み込ませる手もあります。

お忙しいなか、早速お教えいただき、誠にありがとうございます。
LibreOffice v.4.3によるcsv(カンマ区切り)ファイルは、数値文字参照でなく、「lâchement」のようにunicode(utf-8)とし、1行目に見出し行を設けて列の割り当ても行ったものです。
EBMakerの文字コードは「utf-8」、区切り文字は「,(カンマ)」(初期設定)、Typeは「headword、meaning」にして作成しております。
誠に恐縮ですが、実験で成功なさったcsvファイルは、どのアプリケーションで作成されたのか教えていただければ幸いです。

タイトルRe^3: EBMakerによるフランス語ユーザー辞書の作成について
記事No2261
投稿日: 2015/02/07(Sat) 14:07:25
投稿者hishida
> LibreOffice v.4.3によるcsv(カンマ区切り)ファイルは、数値文字参照でなく、「lâchement」のようにunicode(utf-8)とし、1行目に見出し行を設けて列の割り当ても行ったものです。
> EBMakerの文字コードは「utf-8」、区切り文字は「,(カンマ)」(初期設定)、Typeは「headword、meaning」にして作成しております。

そうでしたか、失礼しました。

> 誠に恐縮ですが、実験で成功なさったcsvファイルは、どのアプリケーションで作成されたのか教えていただければ幸いです。

NO.2256からコピーしてエディタ(秀丸)で数値文字参照をunicode文字に直し、UTF-8で保存しました。

EXCELで保存形式を「CSV(カンマ区切り)」にするとShift-JISになるので、EXCELで駄目だったというのは文字コードが理由ではないでしょうか。

タイトルRe^4: EBMakerによるフランス語ユーザー辞書の作成について
記事No2264
投稿日: 2015/02/09(Mon) 16:13:30
投稿者kunio40
> NO.2256からコピーしてエディタ(秀丸)で数値文字参照をunicode文字に直し、UTF-8で保存しました。
>
将来、見出し語を追加して並べ替えの便宜を考えていたため、エディター利用は思いつきませんでした。あいにく、「秀丸」は使っていません。
> EXCELで保存形式を「CSV(カンマ区切り)」にするとShift-JISになるので、EXCELで駄目だったというのは文字コードが理由ではないでしょうか。
御指摘のように、EXCELには「文字エンコーディング」機能はないようです。
EXCELのフォントを「Arial」で作成し、unicodeテキストに一旦保存したものをcsvファイルとして保存しなおして試みましたが、アクセント記号付き文字は「?」、日本語は文字化けしました。

タイトルRe^3: EBMakerによるフランス語ユーザー辞書の作成について
記事No2262
投稿日: 2015/02/07(Sat) 21:31:48
投稿者hishida
想像力を働かせてみますが、
もしかして、
lâchement

lachement
で検索できないという意味でおっしゃっていますか?

それなら、できません。表記の通りの文字での検索になります。
その場合、
lâchement, 語釈, lachement
のように3列与えて、3列目のtype を keyword にします。

headwordしか与えていない場合は、headwordとkeywordを兼用するという仕様になっています。
タイ語でも中国語でもアラビア語でもOKというスタンスなので、
アクセント記号付の文字をアクセント無しにするという処理は今のところしていません。
オプションで追加することはありえます。


以上は私の想像で、本当はkunio40さんがテストデータを開示してくださらない限りわかりません。

タイトルRe^4: EBMakerによるフランス語ユーザー辞書の作成について
記事No2265
投稿日: 2015/02/09(Mon) 16:42:30
投稿者kunio40
> 想像力を働かせてみますが、
> もしかして、
> lâchement
> を
> lachement
> で検索できないという意味でおっしゃっていますか?
御明察のとおりです。
>
> それなら、できません。表記の通りの文字での検索になります。
> その場合、
> lâchement, 語釈, lachement
> のように3列与えて、3列目のtype を keyword にします。
>
> headwordしか与えていない場合は、headwordとkeywordを兼用するという仕様になっています。
> タイ語でも中国語でもアラビア語でもOKというスタンスなので、
> アクセント記号付の文字をアクセント無しにするという処理は今のところしていません。
> オプションで追加することはありえます。
御教示のとおり、文字エンコーディング機能のあるLibreOffice v.4.3で「Keyword」を追加したcsvファイルに基づいてEBMakerでサンプル辞書を再作成して検索を試みたところ、後方一致検索で「e」及び「é」を入力すると、mixité、poupée両見出し語が検索されるのを除き、前方一致、完全一致、全文検索は正常に検索されます。

>
> 以上は私の想像で、本当はkunio40さんがテストデータを開示してくださらない限りわかりません。
前記テストデータについては、次のリンクを御覧ください。

hhttps://onedrive.live.com/redir?resid=3CE83A5A335AF1D2!2462&authkey=!AHjfbZK7bUun8Mc&ithint=folder%2ccsv

これまでテストデータの開示方法を模索していたため、大変御迷惑をおかけしました。