言語を選択

EN English FR Français DE Deutsch IT Italiano PT Português NL Nederlands SV Svenska PL Polski ID Bahasa Indonesia TR Türkçe RU Русский JA 日本語 KO 한국어 ZH 中文 ES Español

オンラインA/Bテスト仮説検定計算機

2つのグループ（AとB）を比較して、コンバージョンや平均に統計的に有意な差があるかどうかを判定します。P値を即座に計算します。

P値 (p)

0.000

帰無仮説を棄却するのに十分な証拠があります

改善分析（リフト）

0% グループAに対する改善率

統計的信頼度： 0%

確率分布

重なりを観察してください。重なりが少ないほど、その差が偶然ではなく実質的なものであるという確実性が高まります。

レポート用テキスト

X名の対象を分析した結果、グループBはZ%の統計的信頼度（p=0.00）でY%の改善を示しています。

よくある質問

P値とは何を意味しますか？

P値は、グループAとグループBのパフォーマンスの差が単なる偶然である確率を示します。P値が有意水準（通常は0.05）を下回る場合、その構造的な差が本物であると95%の確信を持って言えることを意味します。

有意水準（アルファまたはα）とは何ですか？

テストにおける厳格さのレベルです。アルファが0.05の場合、グループBがAと異なると判断するために95%の確信が必要です。アルファが0.01の場合、より高い厳格さ（99%）が求められます。学術および産業界の慣習では、デフォルトで0.05を使用します。

比率の検定と平均の検定の違いは何ですか？

比率の検定は、クリック、メールの開封、コンバージョンなどの二値の成功または失敗の変数を測定します。平均の検定は、平均購入単価や臨床回復日数などの累積的な定量的行動を比較します。

サンプルサイズが30未満の場合はどうなりますか？

サンプルサイズが非常に小さい場合、正規分布近似の精度が低下します（中心極限定理）。臨床的な判断を下す場合は、より保守的な正確確率検定や調整されたスチューデントのt検定の使用をお勧めします。

# オンラインA/Bテスト仮説検定計算機

直感に基づいて決定を下すのは危険です。純粋なデータに基づいて決定を下すことこそが成功への道です。仮説検定計算機（A/Bテスト）は、2つのグループ間の差が統計的に有意であるか、単なる偶然の結果であるかを検証する必要があるアナリスト、マーケター、研究者にとって決定的なツールです。

P値最終判定者

ローカルデータアップロードなし

即座ネイティブチャート

# なぜテストをコンバージョンと平均に分けるのですか？

調査の性質に応じて、成功指標は変わります。当ツールは、業界で最も広く使用されている2つの統計検定タイプをネイティブにサポートしています。

比率の検定（コンバージョン）

2つのグループ間の割合や成功率を比較します。

マーケティングに最適（クリック、販売、購読）
合計ケース数 (n) と成功数 (x) を使用
2標本の比率のZ検定を適用

連続した平均の検定

2つのグループ間の平均的な数値を比較します。

平均客単価、滞在時間、または臨床試験に最適
平均 (μ) と標準偏差 (σ) を使用
サンプルに対する堅牢な正規近似を適用 (Z/T)

# 結果の解釈方法：P値はあなたのガイドです

この計算機の核心は、有名なP値です。この数値は、帰無仮説（「両方のグループは等しい」と仮定）が正しいとした場合に、今回観察されたような差が得られる確率を示します。

観察されたP値	実用的な意味	標準的な決定
0.05以上	差は分散に対して小さいです。偶然で説明がつきます。	帰無仮説を棄却しない。実質的な改善は証明されませんでした。
0.05未満	偶然がこのような差を引き起こす可能性は極めて低いです。実質的な効果があります。	帰無仮説を棄却する。バリエーションBの方が優れた結果です！
0.01未満	変化を支持する証拠が圧倒的です（99%の信頼度）。	断固として棄却する。実験は輝かしい成功を収めました。

小規模サンプルの補正

グループの対象が30未満の場合、ツールは「小規模サンプル」という警告を表示します。これらの境界線上のシナリオでは、古典的な正規近似の精度が低下します。正確なスチューデントのt検定やフィッシャーの正確検定ツールの使用をお勧めします。

# A/Bテスト用語集

コントロールグループ (A): 実験の測定基準となる元のバージョンまたはベースライン。
バリエーション (B): 指標の改善を期待する、新しく修正されたバージョン。
リフト（相対的な改善）: グループAのベースラインに対するグループBのパフォーマンスの変化率。
有意水準 (α): 許容できるエラーのしきい値（通常は5%または0.05）。