KH Coder 掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ] [管理用]

  [No.395] 確認できました 投稿者:HIGUCHI Koichi  投稿日:2009/01/08(Thu) 16:06:56

樋口です。

問題が発生する条件を特定していただき、まことにありがとうございま
す。1つの段落が全角4095文字よりも長い場合、自動的に段落が分割され
てしまう問題をこちらでも確認いたしました。

残念ながら、この問題には茶筌の仕様が関係しており、KH Coder側で対
応するには大手術が必要です。目下の所、この大手術の目処が立ってお
りませので、次のリリースではマニュアルの記述を8,000字から4,000字
に変更し、ファイルのチェック機能でも4,000字以上の段落をチェックす
るように修正する予定です。

こうしたことから、当該のデータを分析していただくには、それぞれの
記事に
<h5><記事の区切り/見出し></h5>
というような見出しを付けていただく必要があります。そして、段落単
位ではなく、h5単位でデータを分析していただくという形です。この場
合ですと、さらに、「語の取捨選択」コマンドで「使用しない語」とし
て、「記事の区切り/見出し」を追加すると良いでしょう。

蛇足かとは思いますが、秀丸のような正規表現を利用できるエディタで
したら、「正規表現」にチェックを入れた上で、
> 検索: ^
> 置換: <h5><記事の区切り/見出し></h5>\n
と指定して全置換をしていただくことで、見出しの挿入を自動的に行え
ます。

また、「正規表現」にチェックを入れて、
> 検索: 。
> 置換: 。\n
と指定して全置換をしていただくことで、一文ごとに改行を挿入し、長
い段落を無くすことができます(こうしていただく方が安全です)。


マニュアルにおける、1段落は8,000字以下でなければならないとの記述
は誤りでした。4,000字以下に訂正させていただきます。また、この誤り
によってご迷惑をおかけしましたことを深くお詫び申し上げます。

p.s.
Wordの「段落数」「行数」については私の勘違いでした。ご放念下さい。

おそらくは、雑誌記事のようにある程度長さのあるものになりますと、H
1〜H5タグを使ってデータを分割する場合が多かったために、この問題の
発見が遅れたものと思われます。

なお共起ネットワークにつきましては、同じ設定で階層的クラスター分析
の結果が出るかどうかや、エラーメッセージなどを教えていただければ、
もしかすると何か分かるかもしれません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)

- 以下のフォームから自分の投稿記事を修正・削除することができます -
処理 記事No 暗証キー