データ サイエンスは、科学的な方法、プロセス、アルゴリズム、およびシステムを使用して膨大な量のデータを処理し、目に見えないパターンを見つけ、意味のある情報を導き出し、企業でビジネス上の意思決定を行い、ビジネス以外の機関でも使用する研究分野です。非ビジネス機関には、ヘルスケア、ゲーム、画像認識、レコメンデーション システム、ロジスティクス、詐欺検出 (銀行および金融機関)、インターネット検索、音声認識、ターゲット広告、航空路線計画、拡張現実などの業界が含まれます。データ サイエンスは、人工知能のサブセットです。分析に使用されるデータは、さまざまなソースから取得でき、さまざまな形式で表示されます。ソース データの一部は標準化されている場合があります。その他は標準化されていない可能性があります。
別の言い方をすれば、さまざまな方法論を使用してデータを収集します (datum の複数形)。次に、収集されたデータから知識 (価値のある結論) が抽出されます。その過程で、データが収集された後、それら(データ)を研究して、問題を解決するための新しいデータ(結果)を取得します。
(主要な)分野としてのデータサイエンスは、大学の学士号および修士号レベルに存在します。ただし、学士号または修士号でデータサイエンスを提供する大学は世界でもごくわずかです。学士号レベルでは、学生はデータ サイエンスの学位を取得して卒業します。これは一般的な目的の学位のようなものです。修士号レベルでは、学生はデータ分析、データ エンジニアリング、またはデータ サイエンティストを専門とするデータ サイエンスの大学院学位を取得して卒業します。
機械学習、モデリング、統計、プログラミング、およびデータベースは、それ自体が尊敬されている大学のコースであるにもかかわらず、学士号レベルでデータ サイエンスを研究するための前提知識であることは、読者を驚かせるかもしれません。学士号レベルまたは修士号レベルの他の分野。それにもかかわらず、学生が学位レベルでデータサイエンスを勉強するために大学に行くとき、これらすべてのコースは、データサイエンスの適切なコースと並行して、またはその前に、まだ勉強されます.
学士号のためのデータサイエンス、またはデータ分析、データエンジニアリング、またはデータサイエンティストとしての専門分野はまだ開発中です。 (大学で)学んだ後、産業界で応用される段階に達しましたが。全体として、データ サイエンスは比較的新しい分野です。
スペシャリストになる前に、まずゼネラリストになる必要があることを忘れないでください。スペシャリスト プログラム間の違いはまだ明確ではありません。ジェネラリスト プログラムとスペシャリスト プログラムの違いはまだ明確ではありません。
データ サイエンスは比較的新しい分野であるため、このドキュメントで規定されている本は、教育学 (本がどれだけうまく教えているか) ではなく、内容の範囲に基づいています。そして、それらは学士号(ジェネラリスト)プログラム用です。さまざまなゼネラリスト コースがあります。
リスト
詳細とクレジット カードでの購入については、各書籍のハイパーリンクが表示されます。すべてのゼネラリスト コースを網羅している本は 1 冊もありません。
データ サイエンスに不可欠な数学: 微積分、統計、確率論、線形代数
作者:ハドリアン・ジーン
- 出版社: ハドリアン・ジーン
- 発行日:2020年9月30日以降
- 言語: 英語
- ページ数: 400 以上
この本の内容は、データ サイエンスの数学コースと見なすことができます。データサイエンスを独学で学ぶことはお勧めしませんが、データサイエンスを独学で学びたい高校生はまずこの本から始めてみてください。
内容: 微積分;統計と確率;線形代数;スカラーとベクトル。行列とテンソル;スパン、線形従属性、および空間変換。線形方程式系;固有ベクトルと固有値;特異値分解。
https://www.essentialmathfordatascience.com/
データ構造とアルゴリズムの常識的なガイド: コア プログラミング スキルのレベルアップ / 第 2 版
作者: ジェイ・ウェングロウ
- 出版社: 実用的な本棚
- 公開日: 2020 年 9 月 15 日
- 言語: 英語
- 寸法: 7.5 x 1.25 x 9.25 インチ
- ページ数: 508
この本は、データ サイエンスで使用されるアルゴリズムとデータ構造を扱います。高校卒業後、独学でデータサイエンスを学んでいるとしたら、前の数学の本を読んだ後に読む本です。サンプル プログラムは、JavaScript、Python、および Ruby で提供されます。
内容: データ構造が重要な理由。アルゴリズムが重要な理由;はい!ビッグオー記法; Big O でコードをスピードアップ。 Big O を使用する場合と使用しない場合のコードの最適化。楽観的なシナリオの最適化;毎日のコードのビッグオー。ハッシュテーブルによる超高速ルックアップ;スタックとキューを使用してエレガントなコードを作成します。再帰で再帰的に再帰します。再帰的に書くことを学ぶ;動的計画法;高速化のための再帰アルゴリズム;ノードベースのデータ構造;二分探索木ですべてを高速化。ヒープで優先順位をまっすぐに保ちます。トライしても問題ありません。すべてをグラフでつなぐ。スペースの制約に対処する。コード最適化のテクニック
よりスマートなデータ サイエンス: エンタープライズ レベルのデータと AI プロジェクトの成功 / 1 st 編集
脚本: ニール・フィッシュマン、コール・ストライカー、グレイディ・ブーチ
- 発売元:ワイリー
- 公開日: 2020 年 4 月 14 日
- 言語: 英語
- ページ数: 286
内容: AI のはしごを登る。フレーミング パート I: AI を使用する組織に関する考慮事項。フレーミング パート II: データと AI を扱う際の考慮事項。アナリティクスの振り返り: 複数のハンマー。アナリティクスの展望: すべてが釘になるわけではありません。 AI のはしごでの運用規律への対処。データを最大限に活用する: 価値を重視する。統計分析によるデータの評価と有意義なアクセスの有効化。長期的な建設;旅の終わり: AI のための IA。
Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning シリーズ) 図解版
によって書かれた: ケビン P. マーフィー
- 出版社: MIT プレス
- 発行日: 2012 年 8 月 24 日
- 言語: 英語
- 寸法: 8.25 x 1.79 x 9.27 インチ
- ページ数: 1104
この本は初心者向けです。繰り返しになりますが、このドキュメントで規定されている他のすべての本と同様に、この本は、残念ながらまだ最終決定されていないジェネラリスト プログラムに必要なすべてをカバーしているわけではありません (スペシャリスト プログラムもまだ最終決定されていません)。ここでの典型的な初心者は、数学とコンピューター サイエンスのパスを持つ高校卒業生です。
内容: はじめに (機械学習: 何を、なぜ?、教師なし学習、機械学習の基本概念);確率;離散データの生成モデル。ガウス モデル;ベイジアン統計;頻繁な統計;線形回帰;ロジスティック回帰;一般化された線形モデルと指数ファミリ。有向グラフィカル モデル (ベイズ ネット);混合モデルと EM アルゴリズム。潜在線形モデル;スパース線形モデル;カーネル;ガウス過程;適応基底関数モデル;マルコフ モデルと隠れマルコフ モデル。状態空間モデル;無向グラフィカル モデル (マルコフ確率場);グラフィカル モデルの正確な推論。変分推論;より変分的な推論;モンテカルロ推論;マルコフ連鎖モンテカルロ (MCMC) 推論。クラスタリング;グラフィカルモデル構造学習;離散データの潜在変数モデル。ディープラーニング。
ビジネスのためのデータ サイエンス: データ マイニングとデータ分析の考え方について知っておくべきこと / 第 1 版
脚本: トム・フォーセット、フォスター・プロボスト
- 出版社: オライリーメディア
- 発行日: 2013 年 9 月 17 日
- 言語: 英語
- 寸法: 7 x 0.9 x 9.19 インチ
- ページ数: 413
内容: データ分析的思考。ビジネス上の問題とデータ サイエンス ソリューション。予測モデリング入門: 相関関係から教師付きセグメンテーションまで。モデルをデータに当てはめます。オーバーフィッティングとその回避;類似性、近隣、およびクラスター。意思決定分析的思考 I: 優れたモデルとは?;モデルのパフォーマンスの視覚化;証拠と確率;テキストの表現とマイニング。意思決定分析的思考 II: 分析工学に向けて;その他のデータ サイエンスのタスクとテクニック。データサイエンスとビジネス戦略;結論。
https://www.amazon.com/Data-Science-Business-Data-Analytic-Thinking/dp/B08VL5K5ZX
データ サイエンティストのための実用的な統計: R と Python を使用した 50 以上の基本概念 / 第 2 版
脚本: ピーター・ブルース、アンドリュー・ブルース、ピーター・ゲデック
- 出版社: オライリーメディア
- 発行日: 2020 年 6 月 2 日
- 言語: 英語
- 寸法: 7 x 0.9 x 9.1 インチ
- ページ数: 368
内容: 探索的データ分析、データと標本分布、統計実験と有意性検定、回帰と予測、分類、統計的機械学習、教師なし学習。
The Book of Why: 原因と結果の新しい科学
脚本:ジュデア・パール、ダナ・マッケンジー
- 出版社:ベーシックブック
- 発行日: 2018 年 5 月 15 日
- 言語: 英語
- 寸法: 6.3 x 1.4 x 9.4 インチ
- ページ数: 432
多くのデータ サイエンスの書籍では、純粋なビジネス業界を例として使用していますが、この本では、医療業界やその他の分野を例として使用しています。
内容: はじめに: データに注意してください。因果関係のはしご;バッカニアからモルモットへ:因果推論の起源。証拠から原因まで:ベイズ牧師がホームズ氏に会う。交絡と脱交絡:または、潜んでいる変数を殺す。煙に満ちた討論: 空気をきれいにする。パラドックスがいっぱい!調整を超えて:マウント介入の征服。反事実: 可能性があったマイニングの世界。調停:メカニズムの検索。ビッグデータ、人工知能、そして大きな疑問。
データサイエンスでキャリアを築く
脚本: エミリー・ロビンソン、ジャクリーン・ノリス
- 発売元:マニング
- 公開日: 2020 年 3 月 24 日
- 言語: 英語
- 寸法: 7.38 x 0.8 x 9.25 インチ
- ページ数: 354
内容: データ サイエンス入門;データ サイエンスの仕事を見つける。データサイエンスに落ち着く;データ サイエンスの役割で成長します。
https://www.manning.com/books/build-a-career-in-data-science
誰でもわかるデータサイエンス/第2版
作者: リリアン ピアソン
- 出版社: ダミーのために
- 発行日: 2017 年 3 月 6 日
- 言語: 英語
- 寸法: 7.3 x 1 x 9 インチ
- ページ数: 384
この本は、読者が数学とプログラミングの前提知識をすでに持っていることを前提としています。
内容: データ サイエンスに頭を悩ませます。データ エンジニアリング パイプラインとインフラストラクチャの調査。データ駆動型の洞察をビジネスと産業に適用する。機械学習: 機械を使ってデータから学習します。数学、確率、および統計モデリング。クラスタリングを使用してデータを細分化します。インスタンスによるモデリング;モノのインターネット デバイスを操作するモデルの構築。データ視覚化設計の原則に従います。 D3.js を使用したデータの視覚化;ビジュアライゼーション デザインのための Web ベースのアプリケーション。ダッシュボード デザインのベスト プラクティスの調査。空間データから地図を作成。データ サイエンスに Python を使用する。データ サイエンスにオープン ソース R を使用する。データ サイエンスでの SQL の使用。 Excel と Knime を使用してデータ サイエンスを行う。ジャーナリズムにおけるデータ サイエンス: 5 つの W (および H) を突き止める。環境データ科学を掘り下げます。 E コマースの成長を促進するためのデータ サイエンス。データ サイエンスを使用して犯罪行為を説明および予測する。オープンデータに関する 10 の驚異的なリソース。 10 個の無料のデータ サイエンス ツールとアプリケーション。
大規模データセットのマイニング / 3 rd 編集
脚本:ジュレ・レスコベック、アナンド・ラジャラマン、ジェフリー・デヴィッド・ウルマン
- 出版社: ケンブリッジ大学出版局
- 公開日: 2020 年 2 月 13 日
- 言語: 英語
- 寸法: 7 x 1 x 9.75 インチ
- ページ数: 565
また、この本は、読者が数学とプログラミングの前提知識をすでに持っていることを前提としています。
内容: データマイニング; MapReduce と新しいソフトウェア スタック。 MapReduce を使用したアルゴリズム。類似品の検索;マイニング データ ストリーム;リンク分析;頻繁なアイテムセット;クラスタリング;ウェブ上での広告;レコメンデーション システム;マイニング ソーシャル ネットワーク グラフ;次元削減;大規模な機械学習。
結論
スペシャリスト プログラム間の違いはまだ明確ではありません。ジェネラリスト プログラムとスペシャリスト プログラムの違いもまだ明確ではありません。しかし、与えられた書籍のリストを読んだ後、読者はデータ アナリスト、データ エンジニアリング、データ サイエンティストの特別な役割をよりよく理解し、次に進むことができるようになります。