コラム

CTC教育サービス・ホーム　＞　コラム　＞　AI活用時代にPythonで見る夢　＞　第2回　ODAC参加報告〜シリコンバレーに行ってきた〜

AI活用時代にPythonで見る夢

CTC 教育サービス

[IT研修]注目キーワード Python Power Platform 最新技術動向 生成AI Docker Kubernetes

第2回　ODAC参加報告〜シリコンバレーに行ってきた〜 (辻慎吾) 2016年12月

ODSCとは？

11月の初旬に、米国カリフォルニア州のサンタクララで開催された、ODSC（Open Data Science Conference）に参加してきたので、今回はその様子をレポートしようと思います。

ODSCは、making data science more accessible（データサイエンスをもっと身近に）というスローガンのもと、オープンソースソフトウェアを使用したデータサイエンスを推進するための活動です。米国ボストンが発祥で、北米を中心に世界各国で開催するイベントを通じ、最新情報の共有や人的ネットワークの形成に力を入れています。今回は、西海岸での開催ということで、ODSC Westとしてサンタクララコンベンションセンターで開催されました。
サンタクララはサンフランシスコの少し南で、所謂シリコンバレーとして有名な地域です。会場の近くには、IntelやOracleなど、名立たるハイテク企業の本社が軒を連ねています。最寄りの空港はサンノゼ国際空港ですが、この空港には日系人の名前が付けられていて、Mineta San José International Airportと呼ばれています。これは、日系人として初めて米国の閣僚になったノーマン・Y・ミネタ氏に由来していて、これまでの経歴や9.11米国同時多発テロでの対応などが、ウィキペディアに詳しく書かれています。きっと空港に銅像があるだろうと思い、一緒に写真を撮ろうと良いデジタルカメラを持っていたのですが、残念ながらミネタさんは居ませんでした。

ODSCは、その名前に、Open Dataが入っているので、誰でも自由に使えるオープンデータに関する会合だと思う方もいるかもしれませんが、そうではなく、オープンソースを利用したデータサイエンスを推進することが活動の目的です。今回は11/4〜11/6の3日間で開催され、初日は気になるライブラリの使い方などを半日程度でじっくり学ぶトレーニングが中心です。あとの2日間は、幅広い分野に関して、1時間程度の講演が3〜4個同時に進行する形式でした。また、企業ブースの展示スペースもあり、Intelのような大企業からDataRobot社のようなベンチャーまで、10社くらいの展示がありました。私は、2日目の朝行われた基調講演から参加しましたので、その様子からお伝えしようと思います。

基調講演から見えくるもの

まずは、創設者であるSheamus McGovernが挨拶。「沢山の興味深い講演があるので、それに参加するのも重要だけど、折角だから友達も作って帰ってね」という内容でした。ちなみに、私はというと、渡米前に顔の広い友人から、Sheamusさんを紹介してもらい、メールで少しやり取りしていたので、現地で彼と直接話をすることができましたが、彼以外の友達は残念ながら出来ませんでした。

続いて登壇したのは、IntelのBob Rogersさん。最近は、IoTの話などもありますが、色々なデータソースから、多種多様なデータが出てくる時代になっています。例えば車の自動運転のためには、周囲の画像の他に、車自体の速度やGPSの情報、さらに道路の混雑状況など、形が違うさまざまな情報を統合して解析する必要があります。これをどのように実現していくべきか？という問題提起から、データ解析のためのプラットフォームが必要だと言う話になり、彼らが中心になって開発しているTrusted Analytics Platform (TAP)へと繋がります。TAPは、データの収集や解析などを統合的に行う事ができる環境で、オープンソースで開発されています。再現性のあるデータサイエンスには、TAPのような環境が不可欠だと話して居ましたが、これは同意できる部分もあるので、私も自身が関わるプロジェクトで、TAPの利用を検討しようかと考えています。

3人目の登壇者は、今回最大のスポンサーDataRobot社のCEOであるJeremy Achinさん。最大のスポンサーだと何をやっても許されるのか、AIの進化について勝手な予想を語る、面白いプレゼンでした。たとえば、2030年ごろに、銀行からの融資を機械学習アルゴリズムに断られた男性が、銀行を訴えたことをきっかけに、企業は機械学習アルゴリズムが下した決断の中身を開示する義務があるという法律が出来るという予測。Deep Learningをはじめとして、最近の機械学習アルゴリズムは、そのモデルの中身を詳細に説明するのが難しいことは分かっているので、会場から失笑混じりの笑いが起こっていました。私が生きているうちに十分起こりそうな予測だなと思い、楽しく聞いていましたが、最後のスライドは2046年ごろ、進化しすぎたAIに人類が滅ぼされるというストーリー。お決まりの、核ミサイルが勝手に発射するスライドで、会場の爆笑をとっていたのは、プレゼン技術として、たいへん参考になりました。
ちなみに、DataRobot社は、データから機械学習モデルを作ったり、最適化する部分を自動化する手法を売りにしていて、日本は世界で2番目の市場だそうです。機械に仕事を奪われつつある時代、データサインティストなら食べていけると思いきや、その仕事すら早くも奪われつつあるのは、この分野の進化スピードの速さを実感するものですが、今後注目すべきベンチャー企業の1つだと思います。

最後の登壇者は、TidalScale社のCEO、Gary Smerdonさん。彼らが提唱するSoftware-Defined Serversの概念について力強く語ってくれました。Software-Defined Serversは、複数の物理的なコンピュータを、あたかも1台の巨大なマシンのように見せてくれる仕掛けです。HadoopやSparkなどの分散処理技術は、そのフレームワークに計算のやり方を合わせる必要がありますが、TidalScaleで巨大マシンを作れば、大量のメモリを必要とする計算も、なにも考えず実行すれば良いだけになります。構成要素である物理マシンの追加や削除も出来るという夢のような話で、ありそうで無かったなと思う一方、ほんとにちゃんと動くのか？という疑問も湧いて来ますが、機会があったら使って見たいとも感じました。
ちなみに、演者のGaryさん、講演中に「Game changer」というフレーズを連発し、「俺が世界を変える！」感じが強烈に伝わってきました。楽観的に考え、沸き上がる自身を持って生きる姿勢に、多少暑苦しさは感じましたが、見習うべきと思った次第です。

基調講演を通じて、印象に残ったのは、Intelがデータサイエンスに本気で取り組む姿勢です。今回紹介されていたTAPもそうですが、Intelはインテル Distribution for PythonというPythonを高速化するためのソフトウェアも発売しています。CPUの性能が1.5〜2年で2倍になるというムーアの法則が終わりを迎えた現在、新たな成長分野に進出するのは当然ですが、やはりデータサイエンスの重要性が、世界規模で急速に高まっていることが改めて実感できました。

その他の話題

2日間にわたる講演は、沢山の内容があるので、すべてを紹介するのは難しいですが、いくつか気になった話題を簡単にまとめてみます。

Googleは、プログラミング無しで手軽に使えるMachine Learning APIから、社内のプロダクト開発にも利用されているTensorFlowまで、幅広い品揃えで旺盛な機械学習需要に対応しています。これを演者のKazunori Satoさんが、流暢な英語で分かり易く解説してくれました。TensorFlowは、2015年末の発表当初から話題をさらった機械学習ライブラリですが、これに関連して作られた、ニューラルネットワークの原理を可視化出来るTensorFlow Play Groundが秀逸です。是非、アクセスして試してみていただけると良いですが、サンプルの分類をニューラルネットが学習する過程を、ブラウザの中で再現できるので、非常に分かり易いです。
TensorFlowについては、キュウリ農家での実例などが紹介され、機械学習がどんどん実社会に浸透している様子が印象深かったです。こうした流れを見越して、GoogleはTensorFlow専用のチップを設計し、CPUでもGPUでもない、TPU（TensorFlow Processing Unit）として提供しています。これもムーアの法則の終焉をうけた新たな方向性ですが、ハードウェアの巨人Intelがソフトへ、ソフトウェアの巨人Googleがハードへ行こうとしている姿が対照的で興味深く感じました。

最後にすこし専門的になりますが、KaggleのCTOの話を紹介します。Kaggleは、機械学習モデルを投稿し、その性能を競い合うサイトです。データとお題が提供されているので、モデルを投稿しなくても、機械学習アルゴリズムの学習に役立つサイトとしても人気があります。KaggleのCTO、Ben Hamnerさんが登壇し、投稿されるモデルの性能に関する興味深い話をしてくれました。
まず、単純な分類モデルを作るお題は、投稿24時間で集まるモデルの予測精度が、ほとんど最高性能に達していて、その後数ヶ月間、新たなモデルが次々に投稿されても、ほとんど性能の向上が見られないという現象を紹介していました。紹介されていた事例では、最初の24時間で投稿されたモデルの精度が、82.6173％だったのに対し、最終的な最高性能は、82.9072％となり、ほとんど誰がやっても同じという結果だったようです。Pythonにも、scikit-learnという非常に高性能な機械学習ライブラリがありますが、最近はこうしたライブラリの性能が、非常に良くなっていることが原因として挙げられると話していました。一方、そう簡単ではないのが、自然言語処理のお題です。問題文と4択の候補を入力として、正解を選ぶお題では、開始24時間で43.3％だった当初の精度が、最終的に59.3％になったそうです。年月が経つにつれて、精度が向上するのの、最高精度が6割程度とまだまだ低く、自然言語処理における機械学習アルゴリズムの応用に、改善の余地があることを裏付ける結果となっています。

まとめ

1人1台のスマートフォンが当たり前になり、小型化したセンサーから沢山の情報が送られるIoT社会を迎え、データサイエンスの重要性は高まるばかりです。本当によい時代だと思うのは、データを解析する環境を、ほぼオープンソースで揃えることが可能な点です。タダ乗りする事ばかりを考えるのは良くありませんが、無料で使えるということは、気軽に始められるという事でもあります。昨日まで、ExcelでやっていたことをPythonでやってみるのはいかがでしょうか？最初は少し面倒かも知れませんが、そのうち慣れて、プログラミングの便利さにきっと気が付くと思います。
今回、ODSCに参加して強く感じたことは、データをうまく解析出来ないと、今後は、あらゆる職種で支障をきたす世の中になりそうだとという印象です。このコラムでは、引き続きオープンソース、特にPythonを使って、AI全盛時代の仕事のやり方を追求して行こうと思います。

IT研修はCTC教育サービス

AWS　Microsoft Azure　生成AI

Python　Power Platform

コンテナ　その他（研修を分野から探す）

筆者書籍紹介

いちばんやさしいパイソンの本
Python スタートブック
　　――Pythonの基本をしっかりマスター

まったくのゼロからでも大丈夫

辻真吾　著
B5変形判／352ページ
定価（本体2,500円+税）
ISBN 978-4-7741-9643-5
詳しくはこちら（出版社WEBサイト）