みんなに優しく、解りやすくをモットーに開設しています。 以下のルールを守りみんなで助け合いましょう。
1.ファイルメーカーで解らない事があればここで質問して下さい。 何方でも、ご質問・ご回答お願いします。 (優しく回答しましょう)
You are not logged in.
Pages: 1
訪問時間の最頻値の求め方を教えていただきたいです。
訪問時間のフィールドがあり、平均的に訪問している順番にソートしたいためです。外れ値が混在しているため、平均値や中央値ではずれが生じている状態です。
訪問時間は9時-17時程度。外れ値は24時間ありえ、多くても1割程度です。
環境はwindows10, FilemakerPro13です
アドバイスをよろしくお願いいたします。
「だいたい」というのは、時間の入力が分単位とかなので時刻に丸めたいっていう意味ですか?
11時58分と12時2分はだいたい同じ、12時2分と12時4分も、12時7分と12時9分もだいたい同じ、ということですよね。
「外れ値は24時間ありえ、多くても1割程度」でしたら、誤差を2時間とすればいいのですか。
色々な手法があると思いますが、その誤差が標準分布しているという前提では、精度を30分とするとして、簡易的な計算では、
訪問時刻を14時だとして、48個の繰り返しフィールド(24時間/30分)を作り、
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.2, 0.5, 0.8, 1.0, 0.8, 0.5, 0.2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
のように計算します。それを区分で合計集計して、最も高い数字を選択する、という方法ではいかがでしょうか。実際の計算では、区切りは5分とか10分程度にするのがいいと思います。
外れを強く減重したいのでしたら、誤差を小さくしたり、精度をたかくしていくと、谷が低くなります。
Last edited by Shin (2022-07-30 15:43:04)
Offline
>平均的に訪問している順番にソート
というのも意味がよくわからない...
最頻値が12時だったとして、11時や13時の訪問を9時や17時より先になるようにソート?
例えば9時と17時が10件ずつ、11時と13時が1件ずつ、12時が20件、の場合にそういうソートしたとして、どういう意味があるのかな...
>だいたいの値を求めたい
「外れ値を除外した平均値の算出をしたい」って事では?
その場合、どれくらい違う値が外れ値になるんでしょうね?
また、8時に1回、17時に1回みたいに2回だけ訪問なんて場合もどうなんでしょうね?
最頻値を求めるのに、外れ値を気にすることはないのでは。
訪問時刻を時間帯に区切って、その回数を求めればいいことでは。
Offline
たくさんの方のコメントをいただきありがとうございました。
shinさん、チポさんの言われるように区切って、カテゴライズするのがよいのですね。
連続変数のまま、近似曲線の山を推測する方法があればと思い質問しました。
初めて投稿したのですが、返信のスピードがとても早くびっくりしました。
みなさんありがとうございました。
> 連続変数のまま、近似曲線の山を推測する方法
デジタルの世界ですので、アナログの連続変数を加算して、近似曲線をアナログで書かせることはできません。非常に細かい区切りを作って、その区切りの中で数値化して加算、それで判断する方法を提案しています。上では区切りを30分にしていますが、1分くらいにするとアナログ計算と近い結果が出ると思います。ただし、計算量は膨大になります。
Offline
Pages: 1
[ Generated in 0.006 seconds, 10 queries executed - Memory usage: 515.15 KiB (Peak: 519.69 KiB) ]