2020-05-15

新型ウイルス COVID-19 の最新研究成果は Kaggle から

6年前に一度だけ機械学習のコンペに参加したことがあります。 

https://yasuabe-ja.blogspot.com/2014/09/higgs-challenge.html 

CERNのATLASチームが取得した衝突データからヒッグス粒子の $H \rightarrow \tau \bar{\tau}$ 崩壊過程の信号を予測しようという興味深いものでした。当時はまだ機械学習があまり話題になっておらずコンペを主催する Kaggle での情報をもとに試行錯誤で解析を行いました。2014年の夏のことですが、あの時はこのコンペのことばかり気になり研究が全くできなくなったので、あれ以来機械学習には深入りしないようにしています。

それでも Kaggle からのメールは時折チェックしていて、最近は新型ウイルス関連のプロジェクトが立ち上がっています。

https://www.kaggle.com/covid19 
https://www.kaggle.com/covid-19-contributions

アカウントを持っているだけで最新の研究成果やデータに直接アクセスできるのでとてもありがたいです。機械学習に興味なくてもとても有益な情報だと思います。

最近は仕事でも機械学習の解析をフォローする必要があり、調べてみると Kaggle について日本語の解説書が出ていたので購入しました。


6年前に知りたかった xgboost のチューニング方法が詳しく紹介されていて、いろいろ思い出しました。実用的でとてもいい入門・解説書だと思います。当時はデータを自前のサーバに落として python を走らせて解析していましたが、今では解析環境を Kaggle が用意してくれているようです。また、GCP(Google Cloud Platform) や AWS(Amazon Web Service) などのクラウドコンピューティングサービスも充実しているので環境条件はとても良くなっています。ネットでも解説記事があるようなので若く時間のある方は是非参加してみてください。 評価指標という明確なルールのもとで最適解を求める能力を競うコンテストなので、多くの理数系の人がおそらく学生の時に参加した「大学への数学」や「高校への数学」の「学コン」みたいなノリで気軽に参加されるといいと思います。成績がいいと国内外の就職にも有利のようですし。

ただ一つだけコメントすると、機械学習ではどのようなモデルを採用するにしろ理論的な普遍性を追求するというよりデータによって異なる最適解を求めるためのチューニング技術の向上を目指すということが重要になります。そのため、物事の本質的な理解にはあまり役立ちません。例えば、リーマン予想やBSD予想について機械学習で何か言えるかとなるとまだ何も知られていません。もしこれらの予想に進展があれば話は別ですが、私は前回の参加で懲りたのでとりあえず機械学習についてはこれからもあまり深入りせず傍観するつもりです。

0 件のコメント: