初心者のFileMaker pro Q&A (旧掲示板)

みんなに優しく、解りやすくをモットーに開設しています。 以下のルールを守りみんなで助け合いましょう。

1.ファイルメーカーで解らない事があればここで質問して下さい。 何方でも、ご質問・ご回答お願いします。 (優しく回答しましょう)

You are not logged in.

Announcement

新しい掲示板は、こちら:https://fm-aid.com/forum/t/filemaker


#1 2014-02-14 20:18:03

エベル
Guest

テキスト中から多いキーワードを自動抽出

はじめまして

FMP11Ad win7を使用しています。
初心者的な質問で申し訳ありません。

テキスト中(長い文章)から、最も多く使用されている単語の上位3位まで自動抽出することは可能でしょうか。
通常は、文章フィールドとは別のフィールドでキーワード(タグ)を指定して検索しているのですが、日本語の単語という概念を持っていれば
可能かと思い質問をしてみました。

現在は依頼人別タスクFileのキーワードと過去の膨大な別案件Fileのキーワード(タグ)とをリレーションで組んでおり、
関連案件の閲覧頻度が増えてきた為、自ら主観的に指定するキーワードの信憑性が低く感じられるようになってきました。

キーワードの1位~3位まで、それぞれチェックBOXで関連ファイルを検索絞り込みを行えればと思っています。

#2 2014-02-15 11:27:36

wader
Member

Re: テキスト中から多いキーワードを自動抽出

「単語の索引」というのはありますけど、検索用ですから、有無の情報しかないでしょう。
1つのフィールド内での回数は別途計算フィールドを作らないとわからないのでは。

Offline

#3 2014-02-15 13:34:44

ebele
Member

Re: テキスト中から多いキーワードを自動抽出

ご返信ありがとうございます。

なんだか的外れな質問をしたようで申し訳ありません。
難しいということは理解できました。

現在は「専門用語(キーワード)自動抽出サービス」で
http://gensen.dl.itc.u-tokyo.ac.jp/gensenweb.html
「重要度」付きの条件で抽出して、更に該当しそうなキーワードを
目視で決めて選んでいます。

弁護士事務所なので、自分で作った文章は簡単にキーワードが
決定できるのですが、他人が作成したもの、文献、法令文書などに
キーワードを抽出させて、判定しています。

手間がかかる作業ですが、省けないので現状のまま頑張ります。

ありがとうございました。

Offline

#4 2014-02-15 13:44:58

wader
Member

Re: テキスト中から多いキーワードを自動抽出

単語数が3万ぐらいまでなら
MiddleWords(テキスト;Get(計算式繰り返し位置番号);1)
で繰り返しフィールドに入れて、それを別ファイルにインポートすればレコードに分割できます。
あとは普通に集計するだけ単語ごとの出現数が出ますが、単語の分割がFM規則でいいかどうかは、微妙。

レコード数が多いと、繰り返しフィールドを作成した時に膨大に時間がかかる可能性があるんで要注意。

Offline

#5 2014-02-17 11:17:02

ebele
Member

Re: テキスト中から多いキーワードを自動抽出

ありがとうございます。
凄いですね。手こずりましたが、やってみてファイルメーカーの可能性を感じました。
単語分割は、やはり接続詞も沢山出てきますので難しいと思いましたが、繰り返しフィールドとインポートを運用することで
思っていたことが出来るということに感激しました。

waderさん、ご丁寧にありがとうございました。

Offline

#6 2014-02-17 16:49:16

keima
Member

Re: テキスト中から多いキーワードを自動抽出

繰り返しの式では テキスト[1] にしないと。
繰り返しを作らなくてもスクリプトでレコードをワード分作っておき、全置換で
MiddleWords ( TBL::テキスト; Get ( レコード番号 ) ; 1 )
でもできるのでは。

漢字とひらがな交じりの単語は処理できないですね。

Offline

Registered users online in this topic: 0, guests: 1
[Bot] ClaudeBot

Board footer

Powered by FluxBB
Modified by Visman

[ Generated in 0.006 seconds, 9 queries executed - Memory usage: 555.66 KiB (Peak: 583.13 KiB) ]