IT・技術研修ならCTC教育サービス

サイト内検索 企業情報 サイトマップ

研修コース検索

コラム

AI活用時代にPythonで見る夢

CTC 教育サービス

 [IT研修]注目キーワード   Python  UiPath(RPA)  最新技術動向  Microsoft Azure  Docker  Kubernetes 

第23回 応用データサイエンス (辻真吾) 2022年10月

はじめに

何事も基礎が重要ですが、基礎的なスキルだけでは実際の役には立ちません。英語を勉強するのは、英語で書かれたドキュメントを読んだり、英語が話せる人とコミュニケーションをとることで新たな気付きを得るためです。今回は、データサイエンスの基礎と応用について考えてみたいと思います。

データサイエンスの持つ印象

データサイエンスという言葉自体が新しいこともあり、データサイエンスと聞くとそれ自体がなんらかの応用分野に属する印象があるように思います。もちろん、これから説明するように私はそうは思っていませんが、実際に「データサイエンスって応用だから、応用データサイエンスってちょっと分からないなぁ」と言われたことがあります。ただ、この反応も当然かもしれません。なぜなら、すべてのデータサイエンスは応用であるべきだからです。話がぐるぐる回り出したので、順を追って説明しようと思います。

データサイエンスについて

データサイエンスには、いくつかのスキルが必要だと言われています。いろいろな意見がありますが、数学、プログラミング、アルゴリズムあたりは必須のスキルでしょう。機械学習は数学とアルゴリズムの応用分野と捉えることもできます。たとえば、アルゴリズムとデータ構造で学ぶ木構造と、数学に属する情報量やエントロピーを理解していないと、Random Forestsは理解できません。これが、データサイエンスという言葉に応用の意味が感じられる理由だと思います。話を明確にするために、ここではこうした機械学習アルゴリズムも基礎的スキルと捉えます。ライブラリを使えば数行のコードで複雑な機械学習アルゴリズムが実行できます。また、多くのデータサイエンティストは、各種の機械学習アルゴリズムについて、なんとなくその中身を理解しているといった程度でしょう。これを、高性能なライブラリがいとも簡単に手に入るようになった弊害と捉える向きもありますが、複雑な機械学習アルゴリズムが大衆化するという意味では歓迎すべきことだと思います。

何に応用するか

複雑にもかかわらず簡単に利用できる機械学習アルゴリズムを基礎スキルと捉えると、これを何に応用するかが重要になります。ここで必要になるのがドメイン知識です。データを分析するには、その業界特有の知識が必要です。ただ、データサイエンスにドメイン知識が必要だということはよく言われていることです。ドメイン知識の有無で、基礎データサイエンスと応用データサイエンスを分けるという点がここでの論点です。

基礎と応用

基礎と応用を分けて考えると何か良いことがあるのでしょうか。あるんです。何をどこまで理解すれば良いのかが明確になります。まず、基礎データサイエンスは全員に必要なスキルです。すべてのビジネスパーソンに必須のスキルなので、これからは大学や専門学校などの教育機関でこれを教えるべきですし、実際にそうなりつつあります。すでに社会人になってしまった方々は、大変だとは思いますが、勉強して身につける必要があります。とくに予算を握っている会社の偉い人達は絶対に学ばなければなりません。データサイエンスを軽視していると近い将来会社が傾きます。これに対して、応用データサイエンスはドメイン知識を利用して、データサイエンスを実践するスキルです。全員に必須ではありません。応用データサイエンティストだけが持てば良いものです。データサイエンスを理解した上で、業界固有の知識とそこから生成されるデータの特性を理解する必要があるので、かなりレベルが高くなります。人材の育成においては、社内でプログラミングなどのスキルがすでにある方々を専門職に育て上げるのがよいでしょう。外部の企業を利用する場合、今後はその外注先がどのドメインに強いデータ分析の会社なのかが問題になってくると思います。製薬会社とよく仕事をしているデータ分析の会社へ、化粧品の臨床試験データの解析を頼むのは良いかもしれませんが、自動車のエンジン特性のデータ分析を頼むのはやめた方がいいかもしれません。

応用データサイエンスのすすめ

応用データサイエンスを意味するApplied Data Scienceという英語もあり、数年前からよく目にする言葉になっています。データサイエンスの重要性が増せば増すほど、応用という視点の必要性が認識されていくでしょう。また一方で、ドメインが異なる応用データサイエンティストの間でも、共有できるノウハウや知識があるのではないかと考えています。こうした場を提供できるように、応用データサイエンス研究会(ゆくゆくは学会)を作りたいと思っています。ご興味がある方はぜひご一報ください。一緒に前に進んでくれるというだけでも歓迎ですし、巨額の寄付金をご提供いただけるとこんなに嬉しいことはありません。何はともあれ、これからもデータサイエンスの普及に務めていく所存です。

 


 

筆者書籍紹介

いちばんやさしいパイソンの本
Python スタートブック
  ――Pythonの基本をしっかりマスター

まったくのゼロからでも大丈夫

辻真吾 著
B5変形判/352ページ
定価(本体2,500円+税)
ISBN 978-4-7741-9643-5
詳しくはこちら(出版社WEBサイト)
Pythonスタートブック増補改訂版

 [IT研修]注目キーワード   Python  UiPath(RPA)  最新技術動向  Microsoft Azure  Docker  Kubernetes