IBMは米国時間6月25日、新型コロナウイルス感染症(COVID-19)のパンデミックのトレンドを見つけ出そうとしている開発者やデータサイエンティストに向け、オープンソースの新たなツールキットを公開したと発表した。開発者の間で普及している「Jupyter Notebook」を用いたこのツールキットは、掘り下げた分析手段の提供を目的としている。これによりユーザーは例えば、米国の郡レベルのデータを分析し、貧困レベルと感染率の相関関係を洗い出すことが可能になる。
IBMのCenter for Open-Source Data and AI Technologies(CODAIT)のチーフアーキテクトであるFrederick Reiss氏は同社のブログに、「IBMとわれわれのチームは、テクノロジーの民主化と、最新のデータセットやツールで開発者の取り組みを活発にさせることの重要性を確信している。このことは、政策立案者が国民の健康を守るための詳細な情報を得て最適な決断を下す上で役立つ」と記している。
このツールキットは、信頼できる情報源からのCOVID-19に関するデータを集積し、整合性を整えた上で、「Pandas」や「scikit-learn」といったツールで分析できるようにフォーマットする。今回公開されたノートブック(「CODAIT/covid-notebooks」)はいくつかの重要な、そして権威ある情報源からのデータを活用しており、米国の郡単位のデータについてはジョンズ・ホプキンス大学のシステム科学工学センター(CSSE)が運営している「COVID-19 Data Repository」(「CSSEGISandData/COVID-19」)のデータを使用している。またこのツールキットは、The New York Timesの「Coronavirus(COVID-19)Data in the United States」リポジトリー(「nytimes/covid-19-data」)と、ニューヨークの新聞THE CITYによるニューヨーク市保健精神衛生局のデータ(「nychealth/coronavirus-data」)の要約(「thecityny/covid-19-nyc-data」)も補完情報として使用している。その他の国々については、欧州疾病予防管理センター(ECDC)が発表している世界各国におけるCOVID-19感染状況を示した地理的分布データを使用している。
データは毎日更新されているため、このノートブックを実行するたびにダウンロードされる。なお、営利目的の組織によるデータセットの再配布はライセンス条項で禁じられている。
IBMは、ユーザーがこのノートブックの情報を最新状態に保てるよう支援することを目的として、データ処理パイプラインを作成した。例えば、これによりユーザーは、米国の郡レベルで時系列に沿ったデータのパイプラインを構築できる。各ボックスはJupyterのノートブックを表している。ユーザーは、ワークフローの上部にあるツールバーの矢印をクリックすることで、ノートブック一式をクラウドに格納できる。このパイプラインは「Kubeflow Pipelines」などを利用する。
Reiss氏は「COVID-19の基礎データは日々変化していると指摘しておくことは重要だ。ユーザーは独自の分析を進めていくなかで、自らのノートブックの結果を何度も更新したいと考えるはずだ」としている。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。