検証が細かすぎる
執筆:令和瑞芳合同会社 代表 小野谷拓真
マーケティングにおいて「改善」という言葉は、基本的にポジティブな響きを持っています。
ただ、改善の粒度が小さすぎると、前に進んでいるようで実はほとんど動いていない、ということが起きます。
ページのボタンを変える。コピーを1語入れ替える。画像を差し替える。
どれも「やっている」感じはありますが、実際に事業の数字を動かす力はあるでしょうか。少なくともWebマーケ立ち上げ1年以内のフェーズにおいては、ほぼありません。
この記事は「検証の粒度」についての話です。主な対象は、Web集客を立ち上げて間もない時期の事業です。月間流入がまだ少なく、チャネルも訴求も固まっていない段階で、何から検証すべきかを整理しました。
(すでにブランドが確立している会社にとっては当てはまらない話も多いので、セクション6で例外として触れています。)
細かいABテストを繰り返す前に、もっと大きな単位で動いたほうがいい場面は、実はかなり多いのではないかと思っています。
本記事の構成
1. 広告初月に「ボタンテキストのAB案」が飛んでくる問題
2. 検証の粒度は、事業のフェーズで決まる
3. なぜ経営者の指示は細かくなるのか
4. LPを直すより、イベントに出てみよう
5. サイトは「改善」ではなく「ゼロイチ」でやる場所
6. 例外:すでに「指名」で選ばれている会社
7. 少ないデータでも結論を出す方法はある
1. 広告初月に「ボタンテキストのAB案」が飛んでくる問題
広告運用を始めて最初の月。まだデータがほとんど溜まっていない段階で、こういう連絡が来ることがあります。
「LPのCTAボタンのテキスト、「今すぐ申し込む」ってどう?検証してみてほしい」。
確かに、その文言もいいかもしれません。
ただ、ボタンであれば文言よりも位置をテストするほうが先決ですし、そもそもこの段階でボタンのテストをしても、得られるものはほぼありません。
月間数百セッションでは、統計的に有意な差が出ません。
CVRの差が0.2〜0.3ポイント程度の改善を検出するには、数千セッション以上は必要です。そこに到達するまでに数ヶ月かかります。
数ヶ月待って「有意差なし」と出たとき、それは「差がなかった」のではありません。
「差を検出できる設計になっていなかった」だけです。
1回のテストに変数が複数入る問題
もうひとつ多いのが、1回のテストに変数を複数入れてしまうケースです。
コピーも画像もCTAの色も同時に変えて、「Bの方がよかった」と言われても、どの変更が効いたのかは判別できません。
1回のテストでは1変数に絞る。これが基本ですが、実務を見ていると守れている現場は少ない。
なぜかというと、意思決定者が「ここも変えたほうがいいと思う。でも科学的に進めるべきだから検証追加しておいて」と言うからです。
優先順位を伝えても、追加のABCDテストを実行することになる。ただ、テスト数が増えるほどオーディエンスの重複や最適化不足でノイズが入り、検証結果が使い物にならなくなることは、運用者側には分かっています。
施策の粒度が、そもそも小さすぎる
この話の根っこにあるのは、施策の粒度が小さすぎるということです。
ボタンの文言で動くのは、せいぜいCVR数ベーシスポイントの話です。0.03%程度の世界です。
それよりも、そのLPに来ている人がそもそも正しいターゲットなのか、訴求軸がずれていないか(いずれもバナーなど広告側の改善の視点)、もっと言えば、LP以外の接点のほうが有効ではないのか。
検証すべき階層が、もっと上にあります。

2. 検証の粒度は、事業のフェーズで決まる
先に全体像を示しておきます。

何を検証すべきかは、事業のフェーズによって変わります。
認知もチャネルも固まっていない段階であれば、検証はチャネル単位でやるべきです。 LP改善ではなく、「どこで顧客と出会うのがいちばん効率がいいのか」を探る段階です。展示会なのか、広告なのか、紹介なのか、コンテンツなのか。
チャネルが決まって、訴求がまだ定まっていない段階であれば、LPは軽めに作り、顧客、SNS広告または検索広告、流入クエリなどから得るインサイトをもとにチューニングしていきます。 検証を行うならガッツリと派生したLPを作るべきです。既存ページの微修正ではなく、まったく別のアプローチを並べて走らせる段階です。
ブランドがすでに確立している段階であれば、既存ページの小さな改善や広告の微調整で十分に数字が動きます。
「ボタンの色を変えたい」と思ったとき、自社がどのフェーズにいるのか。一度立ち止まって考えてみてください。
初期であればあるほど、検証は大きくやらないと意味がありません。
どこでフェーズが切り替わるのか
感覚的にはなんとなく分かっても、「いつ次のフェーズに移るべきか」の判断は難しい。いくつか目安を書いておきます。
本質的な基準:
チャネル検証から訴求検証に移るタイミングは、「ここが主戦場だ」と言えるチャネルが1つ決まったときです。展示会経由の商談が安定して生まれている、広告経由のCVが毎月一定数ある、といった状態。1つのチャネルで再現性が見えたら、そのチャネル内で「何を言うか」の検証に入れます。
訴求検証からページ内改善に移るタイミングは、「この訴求なら反応が取れる」と言える勝ちパターンが1つ以上見つかったときです。新LPを2〜3パターン試して、明らかに成果が良い方向性が見えた段階。ここまで来て初めて、その勝ちLPの中でCTAやフォームの細かい最適化をやる意味が出てきます。
テクニカルな数値基準:
Meta広告の機械学習は、広告セットあたり週50件以上のコンバージョンで最適化が安定するとされています。この水準に達していないうちは、そもそもページ内の微調整で得られるデータの信頼性が低い。
逆にベイズ推定の観点から見ると、CVR 3%前後のLPで2パターンのABテストを行う場合、各パターン300〜500セッション程度で「どちらが優れているか」の確率的な判断が可能になり始めます。月間1,000セッション未満のサイトでは、この水準に到達するまでに数ヶ月かかる。その間ボタンの色をテストしているのは、検証ではなく時間の浪費です。
目安としてまとめると、月間CVが安定して20件を超えるまではチャネル・訴求の検証に集中する。月間CVが50件を超えてきたら、ページ内の要素改善が統計的に意味を持ち始める。この感覚を持っておくだけで、「今やるべきこと」の判断はかなり変わります。
(この数値はあくまで目安です。商材単価やCV定義によって適切なラインは変わります。)
以降のセクションでは、各フェーズで実際に何をするのか、なぜこの順番が守れないのか、そして例外的に細かい改善が有効なケースについて書いていきます。
3. なぜ経営者の指示は細かくなるのか
セクション1で書いたような状況は、珍しくありません。
ではなぜ、経営者・ディレクター(以下「経営者」)の指示は「ボタンの色」や「コピーの1語」のレベルに向かうのか。経験や知識の問題ではなく、構造的な理由があると思っています。
Webマーケに対してだけ「改善モード」に入ってしまう

一見不思議なのは、同じ経営者がオフラインでは大胆に動いていることです。
展示会に出る。紹介ルートを開拓する。新しい営業チャネルを試す。そこでは「やるかやらないか」というゼロイチの意思決定をしています。
なのに、Webマーケの話になった途端、「ボタンの色」「コピーの微修正」になる。
これはおそらく、Webサイトや広告が「すでに動いているもの」として目の前にあるからです。
管理画面を開けば数字が見える。LPを開けばデザインが見える。「ここを直せばもう少し良くなるのでは」という思考が、自然と立ち上がります。
オフラインの施策は「やるかやらないか」の判断から始まるので、発想が自然とチャネル単位になる。でもWebは「すでにあるもの」が目に見えるから、つい局所改善の発想に引っ張られる。
Webだけ、思考のモードが変わってしまう。そういう構造があると感じています。
「施策」と「戦略」の区別がつきにくい

もう少し根の深い問題があります。
多くの経営者にとって、マーケティングは「施策の束」として認識されています。広告を出す、LPを作る、SEOをやる。それぞれが独立した打ち手で、1つずつ改善していけば成果が出るという前提です。
しかし実際には、チャネル選定・訴求設計・導線設計は相互に依存しています。1つだけ局所最適しても、全体が動かないことはよくある。
ボタンの色を変えても成果が出ないのは、ボタンの色が悪いからではありません。もっと上流の設計がずれているからです。
経営者が「ボタンの色」レベルの指示を出してしまうのは、マーケティングを「施策の集合」として捉えていて、「構造の設計」として捉えていないことが原因ではないかと思います。
「数字が見えるもの」に引っ張られる

GA4やMeta広告の管理画面は、CTR・CVR・CPAのような指標をリアルタイムで表示してくれます。
経営者が管理画面を見ると、自然と「この数字をどう上げるか」という思考になる。これ自体は間違っていません。
ただし、管理画面に表示されるのは「すでにやっていることの効率」です。
「やっていないことの可能性」は、どこにも映りません。
展示会に出たらどうなるか。別の訴求軸ならどうか。別のチャネルならどうか。こうした情報は管理画面の外にあります。
測定可能なものに最適化しようとするバイアスは、経営者だけの問題ではありません。運用者も同じ罠にはまります。
だからこそ、提案する側が粒度を引き上げるべき
ここまで書いてきた構造を踏まえると、「経営者が悪い」で終わらせるのは違うと思っています。
経営者が細かい指示を出すのは、大きい粒度の選択肢を提示されていないから、とも言えるからです。
「ボタンの色をどうしましょうか」と聞かれたとき、「それよりもチャネル単位で検証しませんか」「訴求軸ごとLPを分けてテストしませんか」と返せるかどうか。
検証の粒度を引き上げる提案をするのは、運用者やパートナー側の仕事です。
経営者が持っていない視点を持ち込むことは、マーケターの価値だといえます。
4. LPを直すより、イベントに出てみよう(オフィスに閉じこもるな)
ペット向け商材のマーケティングをしていたときの話です。
商品リリース前の準備期間。ディレクターの視点で、LPの構成やコピーを細かく調整する日々が続いていました。必要な作業ではありましたが、事業が大きく動いたきっかけはLPではありませんでした。
商品のリリース後、犬種限定のペット系イベントに出店する機会がありました。
そこでBtoCの直接販売だけでなく、BtoBの取引先との接点も一気に生まれました。
しかも、イベントで撮れた現場の写真の力が大きかった。その後、その写真をもとにLPを作り直すことになり、トータルではかなりの工数がかかりました。
ただ、それでよかったと思っています。
イベントに出なければ分からなかったことが、あまりにも多かったからです。
どういう人が実際に手に取るのか。どの訴求に反応があるのか。BtoBの種がどこにあるのか。そういった情報は、オフィスでLPを眺めていても出てきません。
検証の最小単位は「チャネル」であるべき
経営者やディレクターがオフィスでサイトを微調整するよりも、1回イベントに出ることで得られる情報量のほうが圧倒的に多い。そういう場面は、思っている以上にあります。
「検証」という言葉を使うのであれば、その最小単位は「ページ内の要素」ではなく「チャネル」であるべきです。
この経験から、強くそう思うようになりました。

5. サイトは「改善」ではなく「ゼロイチ」でやる場所
サイト改善が無意味だとは思いません。(私の仕事の最も重要な部分の1つですし)
ただ、サイトで成果を出すための正しい使い方は、既存ページの微修正ではないと考えています。
同じKGIのもとに新たなサイトをゼロからつくって、別の仮説をぶつけること。 それがサイトの正しい使い方です。
あるBtoBの成果報酬型案件で、広告運用を任せていただいています。
クライアントには既存のLPがすでにありました。
このとき最初に着手したのは、バナーの量産ではありません。新しいLPのABテストです。
訴求やターゲットの設計を、自分の仮説でゼロから組み直しました。そのLPと既存LPを並行して広告に回した結果、新規LPのほうが成果が出ました。
既存LPの改善に何ヶ月も費やすよりも、「この訴求で、このターゲットに、この導線で」を丸ごと設計し直すほうが話は早い。
もちろん、毎回うまくいくわけではありません。
ただ、ゼロイチでつくったLPの検証から得られる情報量は、ボタン色の変更とは比較にならないほど大きい。
その後はどうしたかというと、noteの展開を始めました。
サイトをいじるなら「攻め」に使うべきです。 既存ページの微修正という「守り」に時間を使っている限り、大きな変化は起きにくい。
どういうことをしたのか

構成→デザイン→コーディングと実装→バナーデザイン→広告運用まで、私が全部ワンストップで行いました。
既存LPはコーポレートサイトの延長で、情報量が多く、ファーストビューからCVに至る導線が弱い状態でした。広告はMeta広告が主軸だったので、モバイルで流れてくるユーザーには確実に長い。
新LPでは設計思想を丸ごと変えました。検討中のユーザーが最も気にする情報をファーストビューに集約し、CVまでの心理的ハードルを1つずつ潰す構成にしています。CTAの選択肢も絞り、迷わせない導線にしました。訴求のコピーは、実際の問い合わせ顧客が口にしていた言葉から逆算して組み直しています。
その後、CV後のリードの質を見て、この方向性はばっさり切り替えました。短期間でLPを複数回つくり直すことになりましたが、結果として広告のCPAは既存LP単体で運用していた時期の2分の1~分の1程度のレンジで安定するようになりました。
既存LPやチャネルをベースとした改善を何ヶ月も重ねていたら、この変化は起きていなかったと思います。
6. 例外:すでに「指名」で選ばれている会社
ここまで書いてきたことには、例外があります。
すでにブランド力や業界内の地位を確立している会社の場合です。
現在もご相談いただいている老舗の飲食店があります。何十年も同じ場所で商売を続けていて、従業員も長年勤めている方ばかりの、家族のような組織の会社です。
こういう会社に「チャネルを変えましょう」「新しいLPをゼロからつくりましょう」と提案しても、噛み合わないのは当然です。
やったことは、広告でしかPRしないメニューを設け、広告を少し出しただけです。
それだけで、注文が目に見えて増えたとのこと。
なぜそうなるかというと、ブランドの信頼と認知がすでにあるからです。広告は、それを「思い出させる」トリガーに過ぎません。
この会社にとっての改善は、小さな差分で十分に成果が出ます。
(小さな差分の改善で成果が出るのは「すでに強い会社」に限った話です。これから認知を取りにいく段階の会社が同じやり方をしても、成果にはつながりにくいのは、ここまで語ってきた通りです。)
こういう会社にとっての改善は、「新しいことを始める」ではなく「すでに持っている資産の見せ方を少しだけ変える」ことです。
たとえば、常連の間で愛されている逸品や、リピーターが指名する個室。こうした「知る人ぞ知る良さ」を、広告限定メニューの中にさりげなく組み込む。既存の定番メニューをそのまま広告に出しても、広告経由の注文かどうかが分からず成果が見えにくい。
だから、広告でしか出会えない導線を引いたうえで、その中に常連が太鼓判を押す要素を入れておく。新規客が「ここ、いいな」と思うきっかけを、すでにある資産から作る設計です。
重要なのは、このアプローチが機能するのは「伝えるべき価値がすでにある」場合に限るということです。ブランド資産がない段階で同じことをやっても、伝達効率を上げる対象がそもそもない。だからこそ、初期フェーズではチャネルや訴求軸という大きな単位で「何が価値になるか」を探すことが先になります。

7. 少ないデータでも結論を出す方法はある
ここまでの話は「そもそも検証の粒度を上げるべきだ」というものでした。
とはいえ、現実には細かいテストをやらざるを得ない場面もあります。サイト内での改善が必要だが、トラフィックが少ない。有意差が出るまで何ヶ月も待てない。そういう状況です。
従来のp値ベースの検定(いわゆる頻度主義の統計)では、「サンプルが足りないので、もう少し待ってください」で止まってしまいます。
ベイズ推定というアプローチ
ここで使えるのが、ベイズ推定です。
ベイズ推定は、事前の知識と実際に得られたデータを組み合わせて、「AがBより優れている確率は82%」のように確率で結果を示すことができます。
少量のデータでも途中経過として意思決定の補助に使えるのが、この手法の強みです。

メルカリのソウゾウやDEJAMのようなABテストツールでは、すでにベイズ推定が実装されています。
ChatGPTやClaudeにPythonコードを書かせれば、自社のデータでも実行可能です。統計の専門知識がなくても、ツールやAIを使って「このテスト、もう判断していいのか」をチェックすることは、今なら十分にできます。
ABテストの有意差判定をChatGPTやClaudeに頼む場合、データを渡して「ベイズ推定で優劣を判定してください」と伝えれば、その解はもちろん、きちんと指示すれば事後分布のグラフなども出してくれます。
ただし、ベイズ推定は万能ではありません。事前分布の設定や判断基準の設計は依然として人間の仕事ですし、サンプルが極端に少なければ事前分布に引っ張られて結論が歪むこともあります。「少量データでも判断できる魔法」ではなく、あくまで意思決定の補助ツールとして使うのが正しい距離感です。
ただし、順番を間違えてはいけない
これはあくまで「細かいテストをやらざるを得ないとき」の手段です。
まずチャネルの検証。次に訴求軸の検証。最後にページ内の要素の検証。
この順番を飛ばして最初からボタンの色をテストしていたら、どんな統計手法を使っても意味のある結論は出ません。