文字探勘基礎: 從R語言入門
作者 | 譚躍 |
---|---|
出版社 | 五南圖書出版股份有限公司 |
商品描述 | 文字探勘基礎: 從R語言入門:⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。⊙理論與實作兼具,深入淺出說明用R語言執行文字探 |
作者 | 譚躍 |
---|---|
出版社 | 五南圖書出版股份有限公司 |
商品描述 | 文字探勘基礎: 從R語言入門:⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。⊙理論與實作兼具,深入淺出說明用R語言執行文字探 |
內容簡介 ⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。 ⊙理論與實作兼具,深入淺出說明用R語言執行文字探勘的流程及方法,操作步驟清楚易懂。 ⊙內容包含資料清理、斷詞和詞頻、情緒分析和字典法、tf-idf計算和應用、主題建模、機器學習、語意網絡的社會網絡分析,以及網站資料的抓取等。 【自學R語言,順利掌握文字探勘】 文字探勘是以文字作為分析的資料,藉由技術識別、擷取有價值的部分,有系統地管理、整合和應用文字所提供的訊息,像社群網站上常見的「文字雲」即是一種。 本書針對中文透過R語言操作基礎的文字探勘,從人文社會科學領域闡述編程的概念,可使自學者更容易掌握文字探勘的技能。內容包含了解R、文字資料的清理、斷詞和詞頻、情緒分析和字典法、tf-idf值的計算和應用、主題建模、機器學習、詞的關係、語意網絡的社會網絡分析,以及網站資料抓取等。
作者介紹 譚躍現職:國立中山大學管理學院行銷傳播管理研究所副教授學歷:PhD,2008年畢業於Indiana University Bloomington的新聞學院經歷:國立中山大學管理學院行銷傳播管理研究所博士後
產品目錄 Chapter 1 R語言下載與設置第一節 R軟體下載一、前言二、R下載教學第二節 介紹R一、R介面與設置第三節 RStudio下載一、RStudio下載教學第四節 介紹RStudio一、RStudio介面與設置Chapter 2 讀入與初步了解R資料第一節 前言第二節 設定R的工作環境一、設定工作的編碼系統二、設定工作資料夾第三節 將資料讀入R一、將不同形式的檔案讀入R二、物件命名三、執行R程式第四節 了解R資料一、透過物件區的菜單鳥瞰二、指代資料中變項和觀察值三、描述R的資料特徵四、以圖形呈現變項的特徵第五節 儲存資料Chapter 3 資料的初步清理:使用dplyr第一節 前言一、安裝套件第二節 用dplyr整理資料一、重新排列資料(遞增、遞減)二、選擇資料三、刪除資料四、修改變項五、概括內容資料(樣本)的特徵六、分組處理的功能Chapter 4 資料的進階清理第一節 前言第二節 增加變項一、直接產生並賦值二、從舊變項產生三、從文字變項(strings)中提取第三節 清理文字資料(strings)一、strings的清理功能介紹二、查找三、替換四、黏貼第四節 編碼員間編碼信度一、隨機抽取樣本二、交叉編碼三、計算編碼員間信度或電腦與編碼員間效度第五節 畫資料的時間序列圖一、介紹二、計算每天的報導量三、定義時間變項四、使用ggplot2畫圖Chapter 5 斷詞和詞頻第一節 前言第二節 斷詞一、基本概念介紹二、使用tidytext的unnest_tokens指令斷詞三、計算詞頻四、套用停頓詞字典五、畫圖六、套用用戶字典七、使用jiebaR斷詞第三節 詞頻分析一、描述一整個文集二、比較不同文集之間的差異Chapter 6 情緒分析和字典法第一節 前言第二節 情緒分析簡介第三節 字典法和常用的情緒字典第四節 情緒詞的詞頻計算第五節 情緒分析的研究應用一、套用和驗證字典二、更精準的情緒測量三、考察情緒分數與其他變項之間的關係Chapter 7 tf-idf值的計算和應用第一節 tf-idf的概念介紹第二節 tf-idf的計算第三節 tf-idf的應用一、比較不同文類的獨特性二、在機器學習中代表文檔的內容特徵三、作為過濾關鍵詞的標準第四節 其他過濾關鍵詞的方法第五節 文字探勘結果的統計分析Chapter 8 主題建模第一節 前言第二節 LDA的原理和應用步驟一、第一步:斷詞二、第二步:詞彙向量化、尺度縮減及製作dtm三、第三步:決定最佳主題數目四、第四步:進行主題建模並為主題命名五、 第五步:考察每個主題和metadata之間的關係六、第六步:報告主題出現的比例、資料檔合併第三節 K-means的原理和應用步驟Chapter 9 有監督式的機器學習第一節 機器學習在文字探勘的應用第二節 機器學習的定義和基本步驟第三節 機器學習的程式碼練習:迴歸模型一、讀入有標示的資料,並分成訓練集和測試集二、分別對訓練集和測試集的文字資料建立dfm三、使用演算法從訓練集中學習,建立一個模型四、用模型預測測試集中的資料五、測量表現(measure model performance)六、用訓練好的模型預測未標示的資料第四節 機器學習的程式碼練習:分類模型一、SVM(SUPPORT VECTOR MACHINE)二、LOGISTIC REGRESSION三、NAÏVE BAYES四、WORDSCORES TEXT MODELChapter 10 詞的關係第一節 前言第二節 Bigram及其應用一、Bigram的製作二、Bigram的詞頻計算三、Bigram的應用第三節 共現詞(concordance)一、詞的關係一:出現在同一篇文章中二、詞的關係二:出現在一定的距離內Chapter 11 語意網絡的社會網絡分析第一節 前言第二節 社會網絡分析的重要概念介紹第三節 讀入網絡資料第四節 網絡資料的形式和轉換一、網絡資料的基本形式二、網絡資料不同形式之間的轉換三、Two-mode data第五節 語意網絡的描述性分析一、整體網絡分析二、節點分析三、組和次團體的分析(subgroups and communities)第六節 分析兩個網絡的關係一、比較兩個網絡的相似程度二、計算兩個網絡之間的相關程度三、考察多個網絡之間的關係Chapter 12 抓取網站資料第一節 前言第二節 觀察資料一、了解資料型態二、觀察原始碼第三節 資料抓取一、套件介紹二、抓取一篇文章三、抓取一頁搜尋頁面的所有文章四、抓取所有搜尋頁面的所有文章參考文獻
書名 / | 文字探勘基礎: 從R語言入門 |
---|---|
作者 / | 譚躍 |
簡介 / | 文字探勘基礎: 從R語言入門:⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。⊙理論與實作兼具,深入淺出說明用R語言執行文字探 |
出版社 / | 五南圖書出版股份有限公司 |
ISBN13 / | 9786263665743 |
ISBN10 / | |
EAN / | 9786263665743 |
誠品26碼 / | 2682456783003 |
頁數 / | 196 |
裝訂 / | P:平裝 |
語言 / | 1:中文 繁體 |
尺寸 / | 26*19*1 |
級別 / | N:無 |
重量(g) / | 約440g |
提供維修 / | 無 |
自序 : 跟所有人一樣,從來沒有想過自己會出版一本寫著自己名字的書,特別是一本跨領域的關於電腦編程的書。
在思考很久以後,主要出於兩個目的而寫了這本書。第一,是提供給我在國立中山大學行傳所開設的「電腦內容分析和社會網絡分析」這門課的同學一本實用的教科書。從2017年開始,我已經教這門課7次了。選修這堂課的同學通常不多,可能的原因是大家都很害怕用R語言來寫電腦程式。學習電腦語言程式就好像學一門新的語言,因此需要背很多內容。同學們通常聽完一節課,就被各種各樣的電腦指令給嚇壞了。就像學習一門新語言需要一本好用的字典,同學們需要有一個羅列不同場景中完成不同任務所需要之程式碼的教科書,可以隨時查找。我常說不用硬記程式碼,只要會copy和paste就好了。我自己也是只記住了很少量的程式碼,每次分析資料都會回頭查看過去的筆記。之後,有了這本書,寫程式碼應該就方便多了。
寫這本書的第二個目的,是幫助人文社會科學領域沒有編程基礎的同學或學者自學文字探勘的技能。常常有老師向我表示,他們也想學習文字探勘的技能,請教該如何入門。我常常說不太清楚,因為編寫電腦程式的細節太多了。因此,我會推薦他們去讀Julia Silge和David Robinson的Text Mining with R—也是我自學入門所用的書,但我心裡知道,那本書主要是針對英文的文字探勘,若要應用到中文的文字分析,自學者需要走很多的彎路。如果有一本中文文字探勘的書,並且是從人文社會科學領域闡述編程的概念,會使自學者更加容易掌握文字探勘的技能。本書的大部分內容並不是我創造的,而是在遇到教學和研究上的問題之後,於網路上找到的答案。很多國內外的學習夥伴,無私地在網路上分享他們研究的心得、疑問和答案,我主要做的工作就是按照文字探勘研究的流程,把這些內容系統性地歸納在一起。
我對這本著作又愛又恨,恨它的原因主要是每次重讀都發現有錯誤,包括錯誤的描述和跑不出來的程式碼。客觀上,是因為R作為open source的程式語言,每個套件的作者都在更新和修改他們的功能,很多去年跑得出來的程式碼,今年就跑不出來了。主觀上,是我自己也在學習過程中,受限於知識,過去覺得對的描述,現在卻覺得是錯的或者不夠準確。因此,如果讀者發現了任何錯誤和值得探討的地方,都歡迎寫信給我([email protected])。
我由衷感謝,如果沒有我認真、可愛又能幹的助理蘇靖雅,自己一定不可能完成這本書。感謝她細心的校對,使一堆雜亂的資料變成了一本書。也要特別感謝我之前的助理任軒立在資料爬取上所給的指教。還要感謝成大統計學系的李政德老師和中研院的江彥生老師,在我課堂上分別針對機器學習和社會網絡分析所提供的精彩演講,本書很多相關的內容都來自於兩位老師精辟的講解。最後,當然是感謝認真上課的同學們,在授課課程中給了我無數次省思的機會。
最後的最後,感謝愛我的上帝給我一切的資源和機會。希望這本書對你有幫助。上帝祝福你。
譚躍
2023年7月29日於美國印地安納州布魯明頓市
內文 : Chapter 2 讀入與初步了解R資料
第一節 前言
程式碼為電腦能聽懂的語言。學習程式碼,就像學習英文單字一樣,經過日月的積累,就會越來越多,當能記住最基本的100個左右的基本用語,就可以較自由地與電腦對話了。至於較困難的詞,可以查查字典。透過邊用邊學,詞彙就會越來越豐富,表達起來就越來越自由。
R自己本身所具有的程式碼,包含最基本的功能,稱為Base R。Base R中所包括的指令,不用安裝任何套件,R就可以讀得懂,並且執行。
關於Base R的指令,建議下載RStudio線上免費的Cheat Sheet(https://www.rstudio.com/resources/cheatsheets/),它包含Base R的主要指令,用圖形化的方式給予應用上的講解。
第二節 設定R的工作環境
一、設定工作的編碼系統
文字探勘比較特別的地方是以文字作為分析的資料。因為各國的文字不同,編碼系統就不同。即使同樣是中文,也需要統一成一致的編碼系統,才不會出現亂碼。一般來說,研究者會先告訴R,所處的區域是哪裡,它就會自動轉換成那個區域最常見的編碼系統。R的中文系統是uni-code 6。程式碼如下:
設定區域:
sys.setlocale(locale="cht")
RStudio有四個窗口。左上角是程式區,左下角是指令區,詳細說明可以參考第一章。視窗的右上角是「物件區」,剛開始會呈現空白。下述會先介紹「檔案區」,再對物件區進一步說明。
二、設定工作資料夾
如同一般的電腦操作一樣,當讀取資料的時候,需要告訴電腦在哪裡讀資料,也就是提供資料檔所在資料夾的路徑。比較特別的是,R會在一個固定的資料夾中工作,這個固定的資料夾叫做「工作資料夾」。當你的程式碼沒有特別指定其他資料夾時,R都在工作資料夾中工作,包括讀取舊檔案和儲存成新檔案。因此在讀取資料前,需要先設定工作資料夾。寫程式碼如下:
設定工作資料夾:
setwd(" 路徑名稱")
用戶也可以在右下角檔案區Files這個菜單裡,用點選的方式。
點選的目的地就是用戶要讀取資料的地方,這個地方還會成為默認的工作資料夾,電腦之後再讀取或儲存資料,都會在這個資料夾裡進行。進入這個資料夾後,就要把它設置成Working Directory。先點More的下拉菜單,然後選取Set As Working Directory,這樣電腦就會記住這裡是工作資料夾,也就是它讀取和存儲檔案的地方了。
最佳賣點 : ⊙沒有資訊工程背景的文科生也能學會程式語言,適合人文社會科學領域之學生、研究人員自學。
⊙理論與實作兼具,深入淺出說明用R語言執行文字探勘的流程及方法,操作步驟清楚易懂。
⊙內容包含資料清理、斷詞和詞頻、情緒分析和字典法、tf-idf計算和應用、主題建模、機器學習、語意網絡的社會網絡分析,以及網站資