メダル獲得、Kaggle Masterへの道 〜 他者と差を付ける:Kaggle入門

書かれた 沿って notbook

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

連載目次

この連載では、近年話題のコンペティションティションプラットフォーム「Kaggle」について、リクルート所属のKaggle Master 4人がKaggleの仕組みや取り組み方、初心者から一歩先にいくためのノウハウについて解説を行います。第1回では、これからKaggleを始めようと思っている方向けに、Kaggleの仕組みや実際にコンペティションに出場した後の取り組み方、初心者におすすめのコンテンツについて解説を行いました。第2回では、ランクを上げていくために著者が「実際に何をしていたか」について、実際の事例を交えながら説明をしています。

そして第3回の今回は、「他のチームとの差を付ける ―メダル受賞、Kaggle Masterの道―」をテーマに、4人のKaggle Masterによる座談会の模様をレポートします。上位入賞を実現するにはどのようなポイントや戦略を意識すべきか――。ゴールドメダルを取得したからこそ言える、Kaggle Masterを目指すための実践的なアドバイス、さらにKaggle Masterを目指す人たちに向けたメッセージをお伝えします。

最初のテーマは、「上位入賞に向けて“超えるべき壁や気付き”」について。口火を切ったのは、阿内宏武さん。「大体どのコンペティションでも、高いスコアのモデルはベースラインとしてディスカッションやノートブックなどで公開されているので、それを参考にすれば100点満点中80点くらいのモデルにはなります。ただ、80点を100点にしてゴールドメダルを獲得するには、既に公開されている情報に加え“自分なりの工夫”が不可欠になると考えます。個人的には、他のデータサイエンティストがやっていなさそうなアイデアで自分だけのオリジナルモデルを構築できるか、そこがゴールドとシルバーの違いにつながると見ています」。

それを受けて、羽鳥冬星さんは「確かに、ディスカッションやノートブックには“最後の一押し”となるオリジナル要素はあまり公開されていないように思います。そこに気付いた人だけが頭一つスコアを伸ばしている事象は、コンペティションで共通していることといえるでしょう」と、参加経験に基づき上位入賞に必要な要素を明言しています。

小畑堅人さんは、他のデータサイエンティストがやっていることは全て試すことが、上位入賞を狙う上で最低条件になると指摘。「ディスカッションやノートブックなどに公開されている情報は全てチェックし、研究し尽くした上で、自分が思い付くことは全て試してみるというスタンスが、ゴールドメダルを獲得する人に共通していえることだと思います。ただ、まれにオリジナリティーにあふれたアプローチによるモデルを見かけますが、再現性には難があると見ています」。

メダル獲得、Kaggle Masterへの道 〜 他者と差を付ける:Kaggle入門

今回、ゴールドメダルを取得したKaggle主催のMoA(Mechanisms of Action Prediction)のコンペティションについて、阿内さんは「メンバー全員が“これをやったらこうなる”という成果を合理的に積み重ねていった結果、ゴールドメダルの取得につながったと考えています。特に、オリジナル要素を発揮したポイントはディスカッションに投稿されていない、以前のコンペティションでうまく分析できたモデルを活用したこと」と語り、羽鳥さんも「地道に過去のモデルを全て試していった結果が、今回の成果に結実した」と振り返ります。

図1 Kaggleコンペティションのゴールドメダルの獲得条件(https://www.kaggle.com/progressionより引用)

次に、「Kaggle Masterに向けたトレーニングと本業の仕事との“両立の秘訣(ひけつ)”」について尋ねてみました。社内で人材領域のレコメンドシステムと検索システムの改善を担う佐々木彬さんは、「まずは、1日のうち少しでもデータに触れる時間を確保しようとする意識を持つこと。そして、週末の土日は“つぶす”くらいの勢いで、集中してデータ分析に取り組む意気込みが必要」と回答。その上で、チーム単位での参加は“チームのために貢献したい”という気持ちが、コンペティションを頑張り抜く大きなモチベーションになったといいます。これに対し、羽鳥さんは「チーム単位での参加は、文化祭の前日のような高揚感がしばらく続くのがいい」と語っていました。

阿内さんは、社内制度を利用し、事前準備に集中できたエピソードを披露。「勤続3年間につき1回、最大28日間の休暇を取得できる社内の『STEP休暇』制度を活用し、Kaggleのコンペティションに目いっぱいコミットすることができました」

小畑さんは、以前、業務上のミッションとしてコンペティションなどで得た知見を社内の所属グループに還元することを組み入れていたものの、今回のKaggleのコンペティションでは組み入れなかったといいます。その理由について、「Kaggleでできることと、業務でできることは明確に分けて考えたいからです。データ分析が好きな人であれば、業務外の時間であろうと楽しんでKaggleのコンペティションに向けてコミットしてしまう」と言及しています。

自身が所属しているグループには、Kaggleコンペティションに参加している人が多く、参加していないと業務に付いていけなくなるとの危機感を抱き、参加するようになったという小畑さん。「皆さんと一緒に参加するようになったおかげで、ある程度の下地ができ、プロジェクトメンバーとの会話にも少しずつ付いていけるようになり、今ではKaggleでの経験が業務に生かされている」と自信をのぞかせています。

この話に続き、羽鳥さんは、2021年4月に新卒で入社した社員が配属から2カ月後に、過去のKaggleのコンペティションで試したソリューションを使って、実際のオンラインサービスにデプロイしたことで大きな成果を挙げた事例を披露。その上で、Kaggleで培った経験や知識は、業務に還元され非常に役立っていることを実感しているといいます。「データ分析業務では、どのような計画の基にどのような母集団でどういった分析を進めていくかを提示する分析設計が重要になっています。それは、まさにKaggleで求められるような緻密な設計であり、それを実務に適応しそれを基に議論するようなケースが社内の業務で増えてきています。その中で、Kaggleで実践を積んできた人の設計とそうでない人の設計とは差異があり、Kaggleのコンペティションに参加してきたことで、そうした“勘所”は鍛えられていると強く感じますね」。

こうしたメリットを実感しているKaggleに、4人のKaggle Masterは今後も引き続き、積極的に参加していくと明言することに加え、最高位のKaggle Grandmasterも目指していきたいと語っています。羽鳥さんは、2021年度に新卒で入社した2人のKaggle Grandmasterに言及。「世界で数百人しかいないGrandmasterの2人は、天才と言っても過言ではないほどの最高峰のレベルです」。

阿内さんは、「Grandmasterになると、コンペティションに対する取り組み方も全くレベルが格段に違います。そのため、Grandmasterを目指すのであれば、コンペティション後には必ず振り返りをして、自分で活用できるようにノートブックやディスカッションで公開されているモデルや実際に試した手法をきちんと整理してまとめておくなど、いろいろな努力が必要だと思っています」と“Grandmasterへの道”を提示。その上で、「Grandmaster になるには、5つのゴールドメダル(そのうち1つはソロによる取得が必須)が必要であり、Grandmasterを目指すために専念できる潤沢な時間が用意されたとしても、それだけでは実現が難しいでしょう」と付け加えています。

その上で、阿内さんはGrandmasterの2人が中心となって、社内で“リクルート版Kaggleコンペティション”を開催したエピソードを紹介。そこに、4人のKaggle Masterも参加することになり、社内サービスの口コミのログから、口コミの内容がポジティブかネガティブかを予測するモデルの精度を競い合ったといいます。「このサービスの当事者ではないのに、モデルの構築に携われたことが新鮮であり、大変有意義な体験ができました。僕が提示したモデルが社内の誰かに喜んでもらえるのなら、それは嬉しいことですし、ワクワクする気持ちになりましたね」と羽鳥さんはうれしそうに語っていました。

図2 KaggleコンペティションのGrandmasterになる条件(https://www.kaggle.com/progressionより引用)続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

Copyright© Digital Advantage Corp. All Rights Reserved.