Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編] 設計技術シリーズ | 誠品線上

Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編] 設計技術シリーズ

作者 北研二/著;松本和幸/著;吉田稔/著
出版社 日本出版販売株式会社
商品描述 Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編] 設計技術シリーズ:はじめに人工知能(AI)の研究自体は、計算機の黎明期のころから行われてきた。1950

內容簡介

內容簡介 はじめに人工知能( AI) の研究自体は、計算機の黎明期のころから行われてきた。1950 年代後半から60年代にかけての 「第1 次人工知能ブーム」、1980 年代から90 年代にかけての「第2 次人工知能ブーム」とよばれる時期を経て、現在は「第3 次人工知能ブーム」の真っただ中である。今回の第3 次ブームが、従来の第1 次および第2 次のブームと大きく違うところは、多くの分野で、人間の能力に迫る知的情報処理システムが出現しているところにある。この背景には、さまざまなことが考えられるが、最も大きな要因は、各種のビッグデータの蓄積とそのビッグデータを利用可能とするIT 技術の加速度的な進展、深層学習を始めとする新しい機械学習パラダイムの出現であろう。さて、AI システムや機械学習システムを成功に導く鍵の1 つがデータの前処理である。機械学習の本質は、大量のデータの背後に潜む構造や規則性あるいは普遍性を学習することにより、未知のデータに対する予測や推論を正しく行うところにある。しかし、学習の元となるデータの品質が悪いと、正しく学習することができず、その結果として得られるシステムの精度も芳しくなくなる。高精度なシステムを構築するためには、粗悪なデータを排除するとともに、データを加工し学習しやすい形に変換するという工程が重要となる。これこそがまさしく前処理が担っている部分である。極論すると、前処理の成否が機械学習システム全体の品質を担保しているとさえいえる。一説によると、AI や機械学習システム構築の現場では、エンジニアが作業に携わる時間の6 割~ 8 割はデータの収集と前処理に費やされているといわれている。効率的なシステム開発のためには、前処理技術の習得が必須である。本書は、従来の機械学習やデータサイエンスの書籍では十分に扱われていなかった前処理技術に特に焦点をあて、技術の単なる解説だけではなく、実際に動くプログラムを通して、読者が理解できるような実践的な書を目指した。本書の姉妹編である『入門編』では、基本的な前処理技術について紹介しているが、本書では、さらに高度な前処理技術と、テキスト・画像・音声・音楽等のメディアデータに対する前処理技術について解説した。なお、本書の執筆は、1 章 (北)、2 章 (松本)、3 章 (吉田)、4 章 (獅々堀)、5 章 (大野) の分担で執筆し、最後に北が全体をとりまとめた。表記や用語等、なるべく統一するように心がけたつもりだが、見逃した点も多々あるかと思う。この点はご容赦いただきたい。なお、プログラム部分については各人ごとのスタイルもあり、変更は必要最小限にとどめた。本書の出版に関しては、多くの人のお世話になった。特に、科学情報出版編集部には、本書の構成と編集において、ご尽力いただいた。ここに、厚くお礼を申し上げたい。 1章 序章1.1 前処理の概要1.2 プログラムの実行環境2章 高度な前処理技術2.1 カテゴリカルデータから数値データへの変換2.1.1 One-hotエンコーディング 2.1.2 そのほかのエンコーディング手法 2.1.3 特徴量ハッシング 2.1.4 エンティティ埋め込み2.2 不均衡データの扱い2.2.1 オーバーサンプリングとアンダーサンプリング 2.2.2 クラスに対する重みづけ2.3 時系列データの扱い2.3.1 窓付き統計値 2.3.2 タイムゾーンの変換 2.3.3 データの粒度の変換 2.3.4 時系列データにおける欠損値の穴埋め2.4 GPUとTPUの利用3章 テキストデータの前処理3.1 日本語テキストデータ前処理の流れ3.2 日本語テキストデータの準備3.3 文字コード変換3.4 文章の切り出し3.5 分かち書きと形態素解析3.6 単語以外の切り分け単位3.6.1 バイグラム 3.6.2 単語に依存しない分割3.7 単語IDへの変換3.8 文ベクトルの生成 3.9 機械学習の利用3.9.1 gensim 3.9.2 潜在ディリクレ配分法 3.9.3 サポートベクトルマシン 3.9.4 単語分散表現 3.9.5 ニューラルネットワークへの入力4章 画像データにおける前処理4.1 深層学習を用いた画像認識システム4.1.1 従来の画像認識システム 4.1.2 深層学習モデルの導入 4.1.3 ニューラルネットワーク 4.1.4 勾配降下法による最適化 4.1.5 スケーリングによる前処理4.2 畳み込みニューラルネットワーク4.2.1 CNNの構成 4.2.2 畳み込み層 4.2.3 プーリング層 4.2.4 全結合層 4.2.5 CNNの実装例4.3 画像データに対するデータ拡張4.4 ファインチューニング4.4.1 ファインチューニングCNN 4.4.2 VGG16の構成 4.4.3 サンプルプログラム5章 音声・音楽データの前処理5.1 リサンプリング5.2 音量の正規化5.3 チャネルのモノラル化5.4 スペクトルサブトラクション5.4.1 実験用のデータセット 5.4.2 観測信号の生成 5.4.3 スペクトルサブトラクションによる雑音除去 5.4.4 スペクトルサブトラクション型ウィナーフィルタ5.5 調波打楽器音分離

作者介紹

作者介紹 北研二1981 年、早稲田大学理工学部数学科卒業。現在、徳島大学大学院社会産業理工学研究部・教授。マルチメディア情報検索に関する研究に従事。博士(工学)松本和幸2008 年、徳島大学大学院工学研究科博士後期課程知能情報工学専攻修了。現在、徳島大学大学院社会産業理工学研究部・准教授。感情計算、自然言語処理に関する研究に従事。博士(工学)吉田稔2003 年、東京大学大学院理学系研究科博士課程情報科学専攻修了。現在、徳島大学大学院社会産業理工学研究部・講師。テキストマイニングに関する研究に従事。博士(理学)

商品規格

書名 / Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編] 設計技術シリーズ
作者 / 北研二 著;松本和幸 著;吉田稔 著
簡介 / Pythonでデータサイエンス AI・機械学習のためのデータ前処理[実践編] 設計技術シリーズ:はじめに人工知能(AI)の研究自体は、計算機の黎明期のころから行われてきた。1950
出版社 / 日本出版販売株式会社
ISBN13 / 9784910558011
ISBN10 /
EAN / 9784910558011
誠品26碼 /
裝訂 / P:平裝
頁數 / 184
語言 / 4:日文
級別 / N:無
尺寸 / 23.5X18.4X1.1CM

活動