テキスト中から多いキーワードを自動抽出

エベル · 2014-02-14 20:18:03

はじめまして

FMP11Ad win7を使用しています。
初心者的な質問で申し訳ありません。

テキスト中（長い文章）から、最も多く使用されている単語の上位３位まで自動抽出することは可能でしょうか。
通常は、文章フィールドとは別のフィールドでキーワード（タグ）を指定して検索しているのですが、日本語の単語という概念を持っていれば
可能かと思い質問をしてみました。

現在は依頼人別タスクFileのキーワードと過去の膨大な別案件Fileのキーワード（タグ）とをリレーションで組んでおり、
関連案件の閲覧頻度が増えてきた為、自ら主観的に指定するキーワードの信憑性が低く感じられるようになってきました。

キーワードの1位～３位まで、それぞれチェックBOXで関連ファイルを検索絞り込みを行えればと思っています。

wader · 2014-02-15 11:27:36

「単語の索引」というのはありますけど、検索用ですから、有無の情報しかないでしょう。
1つのフィールド内での回数は別途計算フィールドを作らないとわからないのでは。

ebele · 2014-02-15 13:34:44

ご返信ありがとうございます。

なんだか的外れな質問をしたようで申し訳ありません。
難しいということは理解できました。

現在は「専門用語（キーワード）自動抽出サービス」で
http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html
「重要度」付きの条件で抽出して、更に該当しそうなキーワードを
目視で決めて選んでいます。

弁護士事務所なので、自分で作った文章は簡単にキーワードが
決定できるのですが、他人が作成したもの、文献、法令文書などに
キーワードを抽出させて、判定しています。

手間がかかる作業ですが、省けないので現状のまま頑張ります。

ありがとうございました。

wader · 2014-02-15 13:44:58

単語数が3万ぐらいまでなら
MiddleWords(テキスト;Get(計算式繰り返し位置番号);1)
で繰り返しフィールドに入れて、それを別ファイルにインポートすればレコードに分割できます。
あとは普通に集計するだけ単語ごとの出現数が出ますが、単語の分割がFM規則でいいかどうかは、微妙。

レコード数が多いと、繰り返しフィールドを作成した時に膨大に時間がかかる可能性があるんで要注意。

ebele · 2014-02-17 11:17:02

ありがとうございます。
凄いですね。手こずりましたが、やってみてファイルメーカーの可能性を感じました。
単語分割は、やはり接続詞も沢山出てきますので難しいと思いましたが、繰り返しフィールドとインポートを運用することで
思っていたことが出来るということに感激しました。

waderさん、ご丁寧にありがとうございました。

keima · 2014-02-17 16:49:16

繰り返しの式ではテキスト[1] にしないと。
繰り返しを作らなくてもスクリプトでレコードをワード分作っておき、全置換で
MiddleWords ( TBL::テキスト; Get ( レコード番号 ) ; 1 )
でもできるのでは。

漢字とひらがな交じりの単語は処理できないですね。

初心者のFileMaker pro Q&A (旧掲示板)