內容簡介
內容簡介 【書籍の特徴】本書は,理論と実践の両方から,ベイズ分析,ひいてはトピックモデルについて解説。トピックモデルとは,自然言語処理の手法として提案されたもので,大量な文書データから潜在的で深層的なトピックを発掘できる確率モデルである。近年その威力は文書データにとどまらず,画像データや軌跡データの解析にも応用できるようになり,ディープラーニングと並んで人工知能(AI)を支える基本技術となっている。本書では,理論的な基本事項をしっかりと押さえたうえで,できるだけプログラム作成しながら実践的に学習できるように心掛けた。また,読者が無理なく上れるような低めの階段を意識して構成した。【各章について】1章:本書の学習に必要な確率と確率分布の知識およびそのプログラム実現を説明。2章:対比の位置づけとして,従来のデータ分析の基本手法を復習。3章:ベイズ分析の基本的な考え方を説明。あわせてベイズ分析のプログラム実現に使われるPyMCライブラリの使い方を紹介。4章:対比の位置づけとして,従来の文書データ分析の基本手法を復習。5章:ユニグラムモデルを構成して,文書データの分析を行う。また,PyMCライブラリにより,そのプログラム実現を示す。6章:トピックの考え方を取り入れて,混合ユニグラムモデルを構成する。また,混合ユニグラムモデルを用いた文書解析プログラム例を示す。7章:混合ユニグラムモデルをさらに発展させて,トピックモデルを構成する。また,トピックモデルを用いた文書解析プログラム例を示す。8章:Scikit-learnライブラリにあるトピックモデルのモジュールの使い方を説明。それを利用して,20 News Groupsデータセットの英語文書データからトピックを抽出する。9章:Gensimというトピックモデルに特化したライブラリの使い方を説明。それを利用して,Wikipediaの日本語文書データからトピックを抽出する。10章:トピックモデルを拡張して,著者トピックモデルを構成する。そのうえで,Gensimライブラリを利用して,Twitterから収集した日本語の投稿データからトピックを抽出する。11章:トピックモデルを画像データセットに応用する。Gensimライブラリを利用して,Caltech101というデータセットから,小さく分割されたセルで表したトピックを抽出する。12章:トピックモデルを軌跡データセットに応用する。Gensimライブラリを利用して,船舶のAISデータから,航路(コース)となるようなトピックを抽出する。【著者からのメッセージ】実践こそ技術習得の近道である。本書を読むにあたり,繰り返し実践するように心掛けてください。また,実務での応用場面を想定した問題を解決するよう取り組むことができればより効果的である。本書を読んでいただいた皆様が,先進的なデータ分析スキルが向上し,実務の場においてご活躍いただければ幸いである。 ベイズ分析,トピックモデルの理論的な基本事項を押さえたうえで,プログラム作成しながら実践的に学習できるよう構成。