「賃貸と購入、どっちがお得?」“で”分かる、データサイエンスで大切なこと
こんにちは!ソフトウェアエンジニアの花元です。
家探し、してますか?
新しい家を探しているけど、賃貸にした方が得なのか、家を買った方が得なのかよく分からなくて困ること、長い人生で、そこそこありますよね。今日はそんなテーマを通じて分かる、データサイエンスで大切なことを書きたいと思います。
賃貸と購入、どっちがお得?
生成AIであるChatGPTに賃貸と購入、どっちがお得かを聞いてみました。回答を抜粋したものを以下に示します(注: 一部計算に誤りがありますがそのまま掲載しています)。
一見すると妥当そうな推論にも見えます。生成AIによってデータサイエンティストは不要な存在になるのでしょうか。幸か不幸か、計算ミスを除いても、今のところまだデータサイエンティストとしての仕事は奪われなさそうです。
数理モデルの妥当性を検討する
ChatGPTは35年間のトータルキャッシュフローを計算する数理モデルを作成し、購入と賃貸それぞれで計算することでどちらが得なのかを判定しました。しかし、この数理モデルには多くの事象が抜け落ちています。
この数理モデルでは購入と賃貸を35年間のトータルキャッシュフローで比較していますが、35年前のお金の価値と現在のお金の価値が異なるように、現在と35年後のお金の価値は異なるはずです。しかし、このモデルでは現在も35年後もお金の価値は同じであると暗に仮定されています。
家賃が35年間変わらないことが前提となっていますが、通常家賃は物価の変動や建物の経年により変化するはずです。この数理モデルではこれらの事象が無視されています。
全ての数理モデルは森羅万象を説明することはできません。数理モデルは人間が扱いやすくするように、世界を単純化したものに過ぎないからです。上記のような事象を考慮した数理モデルを作成したとしても、例えば「宇宙人が襲来して保有している不動産の価値が消失するリスク」は考慮できません。しかし、このような事象を数理モデルに組み込むのは現実的ではないですし、実際上意味もないでしょう。同様に、お金の価値や家賃の変化を考慮せずとも「賃貸と購入、どっちがお得?」という問題が解けるかもしれません。しかし、そうするに当たって、「これから使う数理モデルはお金の価値や家賃の変化がないことを仮定している」ということに意識的になった上で、「そのような仮定はこれから解きたい問題を解く上で合理的な仮定なのか?」を検討することが重要です。検討して合理的でない仮定だと分かれば数理モデルを改善できますし、実際にその数理モデルを使った後でその仮定が正しくなかったことが分かったときに、数理モデルを改善しなければならない必要性にすぐ気付けるようになるからです。
データサイエンスをしていると、教科書に書いてある数理モデルや、最近学んだ数理モデルを使えば問題が解けるのではないかという発想をすることがあります。資格試験であれば教科書に書いてあるモデルを使えば正解できる可能性は非常に高いでしょう。しかし、我々が解きたいのは現実にある問題で、現実にある問題は教科書に書いてある数理モデルを使える保証はないのです。それどころか、この世に存在するあらゆる数理モデルも問題を解くのに使えない可能性すらあります。全ての数理モデルには、人間が扱いやすくするために何かしらの仮定が置かれているため、その仮定がその問題に対して妥当な仮定なのかは常に意識的である必要があります。
数理モデルのパラメータの妥当性を検討する
不動産価格に対する、年間の賃料の割合のことを表面利回りと呼び、ChatGPTの回答でも表面利回りがモデルの重要なパラメータとして使われています。ChatGPTの回答ではこの表面利回りとして 150,000 * 12 / 30,000,000 = 6%が採用されています。これは日本全体の不動産の標準的な値をベースに出力された可能性がありますが、この値が適切とは限りません。なぜなら、この値は地域や不動産の特性(戸建てかマンションかなど)によって大きく異なることが知られているからです。
例えば、東京都内の新築マンションを購入するか、借りるかを検討している場合、この値は不適切です。2024年現在、東京都内の新築マンションの表面利回りが6%であることはほぼないからです。更に、東京都内の新築マンションに限ってみても、A駅周辺のマンションの表面利回りは5%、B駅周辺のマンションの表面利回りは3%、のように大きな違いがあるようです。表面利回りとして6%を採用するか、3%を採用するかで、同じ賃料の不動産の価格が倍異なるということになりますから、「賃貸と購入、どっちがお得?」という議論に大きな影響を与えるのは想像に難くありません。従って、「賃貸と購入、どっちがお得?」を考えるときは、単に一般的な表面利回り(パラメータ)を推定して用いるのではなく、我々が実際に住みたい不動産をデータとして推定する必要があります。
加えて、全く同じ不動産を買うことも借りることもできるということは稀であるため、似たような不動産から表面利回り(パラメータ)を推定することが多いと思われますが、実際にそれらの不動産を見学してみることも大切です。データ上は似たような不動産であると思っていたとしても、実際に見学してみると、物件の仕様に差異があったり、眺望に差異があったりなど、広さや築年数と言ったデータとして表現しやすいこと以外の不動産の特徴の違いが見えてくることがあるでしょう。結果として、想定したパラメータが不適切であることに早期に気付ける可能性が高まります。データサイエンスをしていると、データにない特徴をあたかも実際にないかのように取り扱いがちですが、実際にはデータとしてないだけで実在はしているため、そのような特徴がパラメータの推定に大きな乖離を与えていないかを気に掛けることが大切です。
問題設定の妥当性を検討する
そもそも新しい家を探す際に「賃貸と購入、どっちがお得?」という問題を立てることは妥当でしょうか。もちろん、誰でも新しい家を探す際はできればお得な方を選びたいものですが、実際は以下のような問題意識を持っている人も多いと思います。
気に入った物件を見つけたのでぜひこの物件を購入したい。気にしているのは購入することで経済的な困難に直面してしまうかもしれないことなので、数理モデルを通じて知りたいのは「不動産を購入して経済的な困難に直面してしまうリスクは十分に低いか?」である。
現在資産の一部を株式に投資しているが、それを売却して頭金にすることで投資性の高い不動産を購入することもできることが分かった。気にしているのは株式を売却することで将来株式から得られたはずの利益が得られなくなることなので、数理モデルを通じて知りたいのは「不動産を購入して売却した株式以上のリターンを得られる可能性は十分にあるか?」である。
これらは「賃貸と購入、どっちがお得?」と共通する部分もあれば異なる部分もあり、結果として必要な数理モデルは異なってくるでしょう。例えば、「不動産を購入して経済的な困難に直面してしまうリスクは十分に低いか?」を検証するためには、不動産の価格が下がってしまうリスク、金利が上昇するリスク、自然災害が起こるリスクなどによりフォーカスした上で、賃貸と比較するのではなく、それらが許容できる範囲内で収まる可能性が高いかを確認するべきでしょう。一方、「不動産を購入して株式以上のリターンを得られる可能性は十分にあるか?」を検証するためには、株式のリターンがどのようになるのかを考えることが不可欠です。
データサイエンスの学習をしていると、問題を見つけるとついその問題そのものを解きたくなりますが、実際はその問題が真に解かなければならない問題であるとは限りません。ステークホルダー自身が「私はこの問題をあなたに解いてほしい」と言っている場合ですら、実は真に解かなければならない問題が異なる場合があるのです。そもそも解くべき問題が異なっている場合、どんなに正しくその問題を解いたとしても意味をなさない、ということになり得るので、まずは「真に解かなければならない問題とは何か?」ということに焦点を当てることが大切だと言えるでしょう。
まとめ
この記事では、「賃貸と購入、どっちがお得?」という身近なテーマを通じて、データサイエンスで大切なことを考察しました。
データサイエンスでは、「この問題をデータサイエンスを使ってどう解くか?」ということに焦点を当てがちですが、実際には、その前に「真に解かなければならない問題とは何か?」ということに焦点を当てることが大切です。
数理モデルを選択する際は「自分が使える・分かる数理モデル」ではなく、「これから解きたい問題が解けるモデル」を選択することが大切です。また、森羅万象を説明できる数理モデルは存在しないので、「今から使おうとしている数理モデルは何を仮定しているのか?」「その仮定はこれから解こうとしている問題に対して合理的な仮定なのか?」ということを考え、明確にすることが大切です。
数理モデルのパラメータを推定する際は、適切な対象を用いることが大切です。また、場合によっては対象から機械的に算出するのみならず、個々のデータを人力で確認して定性的にもパラメータの妥当性を確認することが大切です。
モノグサ株式会社では一緒に働く仲間を募集しています。
少しでも興味を持っていただけた方は、ぜひお話しましょう!