みんなに優しく、解りやすくをモットーに開設しています。 以下のルールを守りみんなで助け合いましょう。
1.ファイルメーカーで解らない事があればここで質問して下さい。 何方でも、ご質問・ご回答お願いします。 (優しく回答しましょう)
You are not logged in.
Pages: 1
はじめまして
FMP11Ad win7を使用しています。
初心者的な質問で申し訳ありません。
テキスト中(長い文章)から、最も多く使用されている単語の上位3位まで自動抽出することは可能でしょうか。
通常は、文章フィールドとは別のフィールドでキーワード(タグ)を指定して検索しているのですが、日本語の単語という概念を持っていれば
可能かと思い質問をしてみました。
現在は依頼人別タスクFileのキーワードと過去の膨大な別案件Fileのキーワード(タグ)とをリレーションで組んでおり、
関連案件の閲覧頻度が増えてきた為、自ら主観的に指定するキーワードの信憑性が低く感じられるようになってきました。
キーワードの1位~3位まで、それぞれチェックBOXで関連ファイルを検索絞り込みを行えればと思っています。
「単語の索引」というのはありますけど、検索用ですから、有無の情報しかないでしょう。
1つのフィールド内での回数は別途計算フィールドを作らないとわからないのでは。
Offline
ご返信ありがとうございます。
なんだか的外れな質問をしたようで申し訳ありません。
難しいということは理解できました。
現在は「専門用語(キーワード)自動抽出サービス」で
http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html
「重要度」付きの条件で抽出して、更に該当しそうなキーワードを
目視で決めて選んでいます。
弁護士事務所なので、自分で作った文章は簡単にキーワードが
決定できるのですが、他人が作成したもの、文献、法令文書などに
キーワードを抽出させて、判定しています。
手間がかかる作業ですが、省けないので現状のまま頑張ります。
ありがとうございました。
Offline
単語数が3万ぐらいまでなら
MiddleWords(テキスト;Get(計算式繰り返し位置番号);1)
で繰り返しフィールドに入れて、それを別ファイルにインポートすればレコードに分割できます。
あとは普通に集計するだけ単語ごとの出現数が出ますが、単語の分割がFM規則でいいかどうかは、微妙。
レコード数が多いと、繰り返しフィールドを作成した時に膨大に時間がかかる可能性があるんで要注意。
Offline
ありがとうございます。
凄いですね。手こずりましたが、やってみてファイルメーカーの可能性を感じました。
単語分割は、やはり接続詞も沢山出てきますので難しいと思いましたが、繰り返しフィールドとインポートを運用することで
思っていたことが出来るということに感激しました。
waderさん、ご丁寧にありがとうございました。
Offline
繰り返しの式では テキスト[1] にしないと。
繰り返しを作らなくてもスクリプトでレコードをワード分作っておき、全置換で
MiddleWords ( TBL::テキスト; Get ( レコード番号 ) ; 1 )
でもできるのでは。
漢字とひらがな交じりの単語は処理できないですね。
Offline
Pages: 1
[ Generated in 0.009 seconds, 14 queries executed - Memory usage: 555.63 KiB (Peak: 565.92 KiB) ]