RWEPA: packages

顯示具有 packages 標籤的文章。顯示所有文章

2023年11月14日星期二

Python - Anaconda packages list

RWEPA | Python 安裝 Anaconda 軟體之後, 如何理解已安裝模組清單?

分析:

依據 2023.10.15 Windows版本 [Anaconda3-2023.09-0-Windows-x86_64.exe]
預設安裝套件清單位置 C:\Users\UserName\anaconda3
預設安裝 489 packages
包括以下模組:

beautifulsoup4
boken
dask
datasets
flask
matplotlib
numpy
openpyxl
pandas
plotly
requests
scikit-learn
scipy
seaborn
sqlalchemy
sqlite
statsmodels

輸出套件清單:

在 Anaconda Prompt 視窗中輸入以下指令, 即可輸出套件清單, 使用 TYPE 可顯示內容.

conda list > conda_packages_list.txt

TYPE conda_packages_list.txt

489套件清單:

https://github.com/rwepa/DataDemo/blob/master/conda_packages_list.txt

# end

2022年1月29日星期六

R自訂套件安裝目錄 (customized package directory)

主題

R 在安裝目錄時, 如果有客製化需求, 可以設定套件安裝目錄, 本篇說明R的安裝目錄, 套件訊息與客製化安裝套件目錄之方法. 本方法使用R函數設定, 可用於 Windows, macOS, ubuntu等作業系統, 以下執行結果可能因使用者名稱與安裝路徑不同而有所差異.

感謝 Ying-Zhe 提供此問題.

關鍵字

# R.home()

# find.package('套件名稱')

# packageVersion('套件名稱')

# .libPaths()

# Rprofile.site

1. 查詢R的安裝目錄

R.home()

# Windows 10

# "C:/PROGRA~1/R/R-41~1.2"

# macOS Catalina

[1] "/Library/Frameworks/R.framework/Resources"

# ununtu 20.04.3

[1] "/usr/lib/R"

2. 套件安裝目錄

find.package('ggplot2')

# Windows 10

[1] "C:/Users/user/Documents/R/win-library/4.1/ggplot2"

# macOS Catalina

[1] "/Library/Frameworks/R.framework/Versions/4.1/Resources/library/ggplot2"

# ununtu 20.04.3

[1] "/home/rwepa/R/x86_64-pc-linux-gnu-library/4.1/ggplot2"

3. 套件版本

packageVersion('ggplot2')

[1] ‘3.3.5’

4. 套件訊息

packageDescription('ggplot2')

Package: ggplot2

Version: 3.3.5

Title: Create Elegant Data Visualisations Using the Grammar of Graphics

....

5. 自訂套件安裝目錄

方法1-每次啟動R或RStudio皆須設定

# 步驟1 顯示套件下載與安裝目錄

.libPaths()

# [1] "C:/Users/user/Documents/R/win-library/4.1"

# [2] "C:/Program Files/R/R-4.1.2/library"

# 步驟2 建立自訂套件安裝目錄

# 考慮在使用者目錄中,以檔案總管建立 mypackages 目錄,本步驟依實際需求修改.

# 自訂套件目錄之完整路徑 C:/Users/user/mypackages

# 步驟3 加入自訂套件目錄於系統套件搜尋路徑之中

.libPaths('C:/Users/user/mypackages')

# 步驟4 顯示目前套件下載與安裝目錄

.libPaths()

# 結果顯示已經加入完成

# [1] "C:/Users/user/mypackages"

# [2] "C:/Program Files/R/R-4.1.2/library"

# 步驟5 安裝套件

install.packages("e1071")

# 步驟6 測試套件之載入, 結果顯示正常載入套件,準備收工...

library(e1071)

# 結果正常載入,無錯誤訊息

# 步驟7 重新啟動 R或RStudio 測試套件之載入,發生錯誤!!!

library(e1071)

# Error in library(e1071) : there is no package called ‘e1071’

# 步驟8 重新加入系統套件搜尋路徑之中(因為每次啟動皆須設定)

.libPaths('C:/Users/user/mypackages')

.libPaths()

[1] "C:/Users/user/mypackages"

[2] "C:/Program Files/R/R-4.1.2/library"

# 步驟9 測試套件之載入,結果顯示正常載入套件,正式完成,還有方法2 ...

library(e1071)

# 結果正常載入,無錯誤訊息

方法2-設定於R組態檔,每次啟動R/RStudio時無需設定

考慮 Windows 10 作業系統, R組態檔 Rprofile.site之位置如下

# C:\Program Files\R\R-4.1.2\etc\Rprofile.site

# 考量已經於以下目錄(C:\Users\user\Documents\R\win-library\4.1)安裝套件

# 使用 Notepad++ 等文字編輯器軟體,於檔案最底下加入以下1行程式,儲存檔案.

.libPaths(c('C:/Users/user/mypackages', 'C:/Users/user/Documents/R/win-library/4.1'))

# 下圖為 Notepad++ 免費軟體編輯 Rprofile.site 畫面

# 重新啟動R或RStudio,套件安裝會自動安裝於 C:/Users/user/mypackages 目錄.

# end

2020年9月26日星期六

ggplot2-新增數學式-以迴歸分析模型為例 (regression line equation)

感謝Joey提供此問題, 本篇文章說明 ggplot2 繪圖新增數學式-以迴歸分析模型為例 (regression line equation)

主題

1. 使用 group_by 與 do 建立迴歸分析

2. 方法1:使用文字型態建立註釋(annotation)

3. 方法2:使用 expression 建立註釋(annotation),加上 parse = TRUE

4. 使用 annotate 新增迴歸分析數學式標示

5. 使用 ggtitle 建立標題

6. 使用 element_text(hjust = 0.5) 設定標題置中排列

關鍵字

# group_by

# do

# paste0

# round

# ifelse

# geom_point

# geom_smooth

# annotate

# ggtitle

# theme

套件

1. ggplot2 - 使用 ggplot2 套件繪圖

2. dplyr - 使用 %>% 與 group_by 進行資料處理

R程式碼下載

https://github.com/rwepa/DataDemo/blob/master/ggplot2-equation.R

R程式碼

# title : ggplot2-新增數學式-以迴歸分析模型為例

# author : Ming-Chang Lee

# email : alan9956@gmail.com

# RWEPA : http://rwepa.blogspot.tw/

# GitHub : https://github.com/rwepa

# resource : https://rwepa.blogspot.com/2020/09/ggplot2-equation.html

library(ggplot2)

library(dplyr)

head(iris)

# 計算群組lm

fitted_models <- iris %>%

group_by(Species) %>%

do(model = summary(lm(Petal.Length ~ Petal.Width, data = .)))

# levels:取出Species欄位的所有可能等級

names(fitted_models$model) <- levels(iris$Species)

# 檢視成果

fitted_models

# 查看群組lm結果(全部)

fitted_models$model

# 查看群組lm結果(setosa)

fitted_models$model$setosa

# 方法1:使用文字型態建立註釋(annotation)

mylabel <- c()

for (i in 1:length(fitted_models$model)) {

mylabel <- c(mylabel, paste0(names(fitted_models$model[i]), ': Petal.Length = ',

round(fitted_models$model[[i]]$coefficients[1], 2), " ",

ifelse(fitted_models$model[[i]]$coefficients[2] >= 0, '+ ', ''),

round(fitted_models$model[[i]]$coefficients[2], 2), ' * Petal.Width,',

' R2 = ', round(fitted_models$model[[i]]$r.squared, 2)))

}

mylabel

gg_color_hue <- function(n) {

hues = seq(15, 375, length = n + 1) # seq(0, 360, ...)

hcl(h = hues, l = 65, c = 100)[1:n]

}

# 繪製群組迴歸模型

p <- ggplot(iris, aes(Petal.Width, Petal.Length, group=Species)) +

geom_point(aes(color=Species), size=2) +

geom_smooth(aes(color=Species), method=lm, se=FALSE) +

annotate('text', label = mylabel, x = 0.7, y = c(2.5, 2, 1.5), size = 4, hjust = 0, color = gg_color_hue(n = 3)) +

ggtitle("iris群組線性模型統計圖") +

theme(plot.title = element_text(hjust = 0.5)) # 設定標題置中排列

# 方法2:使用expression建立註釋(annotation),加上 parse = TRUE

mylabel <- c()

for (i in 1:length(fitted_models$model)) {

mylabel <- c(mylabel, paste0(names(fitted_models$model[i]), ': ', 'Petal.Length == ',

round(fitted_models$model[[i]]$coefficients[1], 2), " ",

ifelse(fitted_models$model[[i]]$coefficients[2] >= 0, '+ ', ''),

round(fitted_models$model[[i]]$coefficients[2], 2), ' * Petal.Width ', '~',

'R^{2} == ', round(fitted_models$model[[i]]$r.squared, 2)))

}

mylabel

p <- ggplot(iris, aes(Petal.Width, Petal.Length, group=Species)) +

geom_point(aes(color=Species), size=2) +

geom_smooth(aes(color=Species), method=lm, se=FALSE) +

annotate('text', label = mylabel, x = 0.7, y = c(2.5, 2, 1.5), size = 4, hjust = 0, color = gg_color_hue(n = 3), parse = TRUE) +

ggtitle("iris群組線性模型統計圖-使用 parse參數") +

theme(plot.title = element_text(hjust = 0.5))

# end

2020年6月17日星期三

R-4.0.1-Rcmdr套件開啟異常

問題: 近日有網友提及使用 R-4.0.1 時, 載入 Rcmdr套件異常, 無法正常載入.

方法: 考慮 Windows 環境, 一般遇到套件無法載入, 可參考以下方法:

在 R的原生環境下重新安裝套件
使用檔案總管, 刪除套件所在資料夾, 再重新安裝.
安裝較低版本的套件
安裝較低版本的R

本例採用方法4, 重新安裝較低版本的R, 即改用 R-4.0.0 即可正常開啟 Rcmdr視窗.

下載並安裝 R-4.0.0 https://cran.csie.ntu.edu.tw/bin/windows/base/old/

參考完整說明:

https://github.com/rwepa/DataDemo/blob/master/R-4.0.1-Rcmdr-correct.pdf

# end

2019年11月2日星期六

R如何轉換為有效的欄位名稱 - make.names {base}

使用 Excel 等軟體進行資料分析時, 欄位名稱可以儲存為空白符號, 但是使用R軟體時, 不方便使用包括空白符號之欄位名稱, 此時可以先使用 make.names 函數將資料轉換為有效的合法名稱, 此函數是屬於基本30個套件之一, 即是 base 套件, 轉換後會將空白等字元以點符號「. 」表示.

# readr套件
# read_csv
# names
# make.names

練習範例:

步驟1: 下載936萬筆每小時臭氧資料 hourly_44201_2018.csv

1.連結: https://github.com/rwepa/DataDemo/blob/master/README.md
2.選取 hourly_44201_2018.csv 說明
3.下載 hourly_44201_2018.zip, 再解壓縮檔案為 hourly_44201_2018.csv (2.05GB)

步驟2: 匯入資料, 分別使用read.table 與 read_csv{readr}, 結果顯示使用readr套件較快速

# 方法1: 使用傳統read.table匯入資料
system.time(mydf <- read.table("hourly_44201_2018.csv", header=TRUE, sep=",")) # 113.45秒

# 方法2: 使用readr套件匯入資料
library(readr)
system.time(ozone <- read_csv("hourly_44201_2018.csv")) # 9366419*24, 47.67秒

# 步驟3: 選取部分欄位
names(ozone)
ozone$Sample Measurement # 因為欄位名稱中間有空白, 因此會有ERROR
ozone$`Sample Measurement` # 顯示正確, 使用「`」符號

# 步驟4: 使用 make.names 函數, 欄位名稱已經改為合法名稱
names(ozone) <- make.names(names(ozone))
names(ozone)

# end

2018年10月27日星期六

主題式地圖(Thematic map) - 政府開放資料為例

# 主題式地圖
# Thematic map
# 開放式資料
# open data
# 地圖資料與社會經濟資料合併
# rgdal 套件
# tmap 套件

2022.7.28 更新R程式碼

https://github.com/rwepa/DataDemo/blob/master/thematic_map.R

# end

主題

本例說明考量社會經濟等開放式資料，輔以主題式繪圖方式，提升資料視覺化品質，便於資料呈現與溝通。下載資料的儲存目錄以C:\rdata為主。本範例包括以下六大步驟：

步驟1：下載社會經濟開放資料
步驟2：下載地圖資料
步驟3：匯入地圖資料至R
步驟4：匯入臺北市住宅竊盜點位資訊資料
步驟5：將臺北市住宅竊盜點位資訊整合至twn.taipei@data
步驟6：臺北市住宅竊盜分佈圖

步驟1：下載社會經濟開放資料

本例以臺北市住宅竊盜點位資訊為例，資料筆數；1945，欄位個數：5，欄位名稱：編號，案類，發生(現)日期，發生時段，發生(現)地點。下載檔案：「臺北市10401-10709住宅竊盜點位資訊.csv」。

下載網址：https://data.gov.tw/dataset/73886，參考圖-1，圖-2說明。

圖1-開放資料-臺北市住宅竊盜點位資訊

圖2-臺北市住宅竊盜點位資訊CSV檔案

目前資料集已經下架, 請參考以下網址直接下載:

臺北市10401-10806汽車竊盜點位資訊.csv

步驟2：下載地圖資料

參考政府資料開放平台，常用的地理資料包括下列二個項目：

1. 鄉鎮市區界線(TWD97經緯度)，資料包括鄉(鎮、市、區)行政區域界線圖資。

下載網址：https://data.gov.tw/dataset/7441，參考圖-3說明。

圖3-鄉鎮市區界線下載

2. 直轄市、縣市界線(TWD97經緯度)，資料包括直轄市以及縣(市)行政區域界線圖資

下載網址：https://data.gov.tw/dataset/7442，參考圖-4說明。

圖4-直轄市、縣市界線下載

本例考量分析台北市各區資料，因此下載第一項「鄉鎮市區界線(TWD97經緯度)」，下載檔案為「 mapdata201805311056.zip」，解壓縮為「C:\rdata\mapdata201805311056」資料夾，參考圖-5說明。

地圖資料包括 .shp, .shx, .dbf, .prj，其中shp, shx, dbf 為三個必備檔案：

.shp：圖形格式，用於儲存地圖元素的幾何資料。
.shx：— 圖形索引格式，即幾何資料索引。記錄每一個幾何資料shp檔案之中的位置，能夠加快向前或向後搜尋幾何資料的效率。
.dbf：屬性資料格式，以dBase IV的資料表格式儲存每個幾何形狀的屬性資料。
.prj：圖形格式.shp檔案中幾何資料所使用的經緯度座標系統。

圖5-鄉鎮市區界線(TWD97經緯度)解壓資料夾

步驟3：匯入地圖資料至R

使用 rgdal 套件的 readOGR函數以匯入地圖資料，使用 tmap 套件以製作主題式地圖

library(rgdal)
library(tmap)

# 匯入地理資料 readOGR {rgdal}
twn <- readOGR(dsn="C:/rdata/mapdata201805311056", layer="TOWN_MOI_1070516", encoding="UTF-8")
head(twn@data) # 中文亂碼

# 中文亂碼轉換 iconv {base}
twn@data$COUNTYNAME <- iconv(twn@data$COUNTYNAME, from = "UTF-8", to="UTF-8")
twn@data$TOWNNAME <- iconv(twn@data$TOWNNAME, from = "UTF-8", to="UTF-8")
head(twn@data) # 中文正常顯示

names(attributes(twn)) # 7個屬性
summary(twn) # 資料摘要
names(twn) # 7個欄位
class(twn) # SpatialPolygonsDataFrame
str(twn@data) # 368*7

# 篩選臺北市地理資料
twn.taipei <- twn[which(twn@data$COUNTYNAME == "臺北市"), ]
twn.taipei@data

str(twn.taipei@polygons[1])
str(twn.taipei@polygons[5])

步驟4：匯入臺北市住宅竊盜點位資訊資料

theft <- read.table("臺北市10401-10709住宅竊盜點位資訊.csv", header=TRUE, sep=",", stringsAsFactors=FALSE) # 2054*5

# 將發生.現.日期由民國年轉為西元年
theft$發生.現.日期 <- as.Date(unlist(lapply(theft$發生.現.日期, function(x) {
if (nchar(x) == 6) return(paste0(as.numeric(substr(x,1,2))+1911, "-", substr(x,3,4), "-", substr(x,5,6)))
if (nchar(x) == 7) return(paste0(as.numeric(substr(x,1,3))+1911, "-", substr(x,4,5), "-", substr(x,6,7)))
})))

# 新增行政區欄位
# substr 函數與 Excel =MID函數類似, 取出部分字串
theft$行政區 <- substr(theft$發生.現.地點,4,6)

# 篩選2018年&台北市資料
theft.2018 <- theft[theft$發生.現.日期 >= as.Date("2018-01-01") & substr(theft$發生.現.地點,1,3) == "台北市" ,] # 247*6

# 樞紐分析各行政區住宅竊盜次數小計
theaft.area <- aggregate(案類~行政區, data=theft.2018[c(2,6)], length)
names(theaft.area) <- c("行政區", "住宅竊盜發生數")
summary(theaft.area)

步驟5：將臺北市住宅竊盜點位資訊整合至twn.taipei@data

# merge函數中,sort參數須設定為FALSE,否則繪圖位置會有錯誤
twn.taipei@data <- merge(twn.taipei@data, theaft.area, by.x = "TOWNNAME", by.y = "行政區", sort=FALSE)
twn.taipei@data

步驟6：臺北市住宅竊盜分佈圖

# method 1 採用 plot{graphics}
住宅竊盜發生數.color <- cut(twn.taipei@data$住宅竊盜發生數,
breaks=c(0,10,15,20,30,Inf),
labels=c("10以下", "11~15", "16~20", "21~30", "31以上"))

# 建立彩色調色盤(color palette)
# 內建調色盤 rainbow, heat.colors, terrain.colors, topo.colors, cm.colors, 本例以heat.colors為主
twn.taipei@data$Col <- heat.colors(5)[as.numeric(住宅竊盜發生數.color)]

plot(twn.taipei, col=twn.taipei@data$Col, main="2018年臺北市住宅竊盜分佈圖")
text(coordinates(twn.taipei)[,1], coordinates(twn.taipei)[,2], twn.taipei$TOWNNAME, cex=0.7)
legend("topright", legend=levels(住宅竊盜發生數.color), fill=twn.taipei@data$Col, col= heat.colors(5), title="住宅竊盜發生數")

# method 2 採用 qtm{tmap}
qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖")

qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖", fill.palette="Blues")

qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖", fill.palette="Greens")

R程式碼 :

# title: 主題式地圖(Thematic map)-以政府開放資料為例
# date: 2018.10.28
# 本例說明考量社會經濟等開放式資料，輔以主題式繪圖方式，提升資料視覺化品質，使於資料呈現與溝通。

# 步驟1：
# 下載社會經濟等開放式資料，本例以臺北市住宅竊盜點位資訊為例，資料筆數；1945，欄位個數：5，欄位名稱：編號，案類，發生(現)日期，發生時段，發生(現)地點。
# 下載網址：https://data.gov.tw/dataset/73886

# 步驟2：下載地圖資料
# 本例考量分析台北市各區資料，因此下載第一項「 鄉鎮市區界線(TWD97經緯度)」，下載檔案為「 mapdata201805311056.zip」，解壓縮為「C:\rdata\mapdata201805311056」資料夾

# 下載世界地圖
# http://www.diva-gis.org/gdata


# 步驟3：匯入地圖資料至R
# 使用 rgdal 套件的 readOGR函數 以匯入地圖資料，使用 tmap 套件以製作主題式地圖

library(rgdal)
library(tmap)

# 匯入地理資料
twn <- readOGR(dsn="C:/rdata/mapdata201805311056", layer="TOWN_MOI_1070516", encoding="UTF-8")
head(twn@data) # 中文亂碼

# twn <- readOGR(dsn="C:/rdata/TWN_adm", layer="TWN_adm1", encoding="UTF-8")
head(twn@data) # 中文亂碼
names(twn@data)

# 中文亂碼轉換 iconv
twn@data$COUNTYNAME <- iconv(twn@data$COUNTYNAME, from = "UTF-8", to="UTF-8")
twn@data$TOWNNAME <- iconv(twn@data$TOWNNAME, from = "UTF-8", to="UTF-8")
head(twn@data) # 中文正常顯示

names(attributes(twn)) # 7個屬性
summary(twn) # 資料摘要
names(twn) # 7個欄位
class(twn) # SpatialPolygonsDataFrame
str(twn@data) # 368*7

# 篩選臺北市地理資料
twn.taipei <- twn[which(twn@data$COUNTYNAME == "臺北市"), ]
twn.taipei@data

str(twn.taipei@polygons[1])
str(twn.taipei@polygons[5])

# 步驟4：匯入臺北市住宅竊盜點位資訊資料
theft <- read.table("臺北市10401-10709住宅竊盜點位資訊.csv", header=TRUE, sep=",", stringsAsFactors=FALSE) # 2054*5

# 將發生.現.日期由民國年轉為西元年
theft$發生.現.日期 <- as.Date(unlist(lapply(theft$發生.現.日期, function(x) {
 if (nchar(x) == 6) return(paste0(as.numeric(substr(x,1,2))+1911, "-", substr(x,3,4), "-", substr(x,5,6)))
 if (nchar(x) == 7) return(paste0(as.numeric(substr(x,1,3))+1911, "-", substr(x,4,5), "-", substr(x,6,7)))
})))

# 新增行政區欄位
theft$行政區 <- substr(theft$發生.現.地點,4,6)

# 篩選2018年&台北市資料
theft.2018 <- theft[theft$發生.現.日期 >= as.Date("2018-01-01") & substr(theft$發生.現.地點,1,3) == "台北市" ,] # 247*6

# 樞紐分析各行政區住宅竊盜次數小計
theaft.area <- aggregate(案類~行政區, data=theft.2018[c(2,6)], length)
names(theaft.area) <- c("行政區", "住宅竊盜發生數")
summary(theaft.area)

# 步驟5：將臺北市住宅竊盜點位資訊資料整合至 twn.taipei@data
# merge函數中,sort參數須設定為FALSE,否則繪圖位置會有錯誤
twn.taipei@data <- merge(twn.taipei@data, theaft.area, by.x = "TOWNNAME", by.y = "行政區", sort=FALSE)
twn.taipei@data

# 步驟6：臺北市住宅竊盜分佈圖

# method 1 採用 plot{graphics}
住宅竊盜發生數.color <- cut(twn.taipei@data$住宅竊盜發生數, 
 breaks=c(0,10,15,20,30,Inf), 
 labels=c("10以下", "11~15", "16~20", "21~30", "31以上"))

# 建立彩色調色盤(color palette)
# 內建調色盤 rainbow, heat.colors, terrain.colors, topo.colors, cm.colors, 本例以heat.colors為主
twn.taipei@data$Col <- heat.colors(5)[as.numeric(住宅竊盜發生數.color)]

plot(twn.taipei, col=twn.taipei@data$Col, main="2018年臺北市住宅竊盜分佈圖")
text(coordinates(twn.taipei)[,1], coordinates(twn.taipei)[,2], twn.taipei$TOWNNAME, cex=0.7)
legend("topright", legend=levels(住宅竊盜發生數.color), fill=twn.taipei@data$Col, col= heat.colors(5), title="住宅竊盜發生數")

# method 2 採用 qtm{tmap}
qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖")

qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖", fill.palette="Blues")

qtm(shp=twn.taipei, fill="住宅竊盜發生數", text="TOWNNAME", fill.title="住宅竊盜發生數", title="2018年臺北市住宅竊盜分佈圖", fill.palette="Greens")
# end

2018年9月23日星期日

2018人工智慧與資料科學應用研討會

網站：http://bigdata.scu.edu.tw/aiads2018/

主會議

2018 人工智慧與資料科學應用研討會

人工智慧與資料科學分析已成為萬眾矚目的焦點，每個領域都需要專精的分析人才，以及對商業有高度的敏銳度，找出企業問題協調組織面對，將能成為最有價值的企業人才。全球產官學界紛紛期盼能夠孵育頂尖人才，為了提升台灣在人工智慧的水準，本研討會邀請各界AI人工智慧與資料科學分析等專家齊聚一堂，為各位帶來AI與資料科學分析等一系列的專題演講，提供最近距離跟專家們會談。本研討會除了邀請專家學者進行精闢演說外，於研討會後翌日舉行Open data 分析競賽，促使AI技術與資料科學分析扎根於大專院校，提升高教學生在人工智慧技術與巨量資料分析的技能與優勢，更是學生學以致用的最佳發揮舞台。

競賽

2018 Open Data分析競賽

為推廣「人工智慧」與「資料科學」相關技術於開放資料(open data)的分析與應用，本競賽活動廣邀大專院校學生利用AI技術與資料科學分析進行創意發想與實作，用以培育人工智慧與資料科學分析之優秀大專院校學生。

研討會日期

2018年12月07日 - 2018年12月08日

主會議日期: 2018年12月07日

競賽日期: 2018年12月08日

研討會地點

東吳大學

台北市中正區貴陽街一段56號 (城中校區)

2018年4月7日星期六

R資料匯入與匯出

# read.table
# read.csv
# read.fwf
# 檔首無BOM
# readxl 套件
# RODBC 套件
# lapply
# do.call

本篇說明資料匯入與匯出。首先介紹ETL概念，其次介紹常用的資料檔案，包括文字檔案、Excel檔案、資料庫資料、JSON檔案。資料庫的匯入將以Microsoft SQL Server說明為主。最後以單一檔案較大者的「大型資料」匯入與檔案數目較多者的「大量資料」匯入等議題做為本篇的結束。

1. ETL簡介

隨著科技的進步，企業經常面對資料處理、轉換或整合等應用。「ETL （Extract-Transform-Load）擷取轉換載入」是資料分析中的基礎的應用，最早興起於1970年資料倉儲中資料庫的處理程序。ETL表示資料由資料來源端擷取 (Extract) 出來，經過轉換 (Transform)，再載入 (Load)到目的端的資料傳輸整體過程。進行ETL程序時，常用串流方式方法避免資料讀取時記憶體耗盡，參考圖1所示。

圖1 ETL流程圖

擷取：從各種不同的資料來源中，將資料擷取出來。資料來源包括交易型資料庫，同質資料與異質資料來源，資料擷取具有以下特性：

可能有各式各樣的資料來源和不同的資料格式，在利用程式語言開發或使用現有工具時，必須將來源資料轉換成共同資料格式。
擷取出來的資料，比對其格式和結構是否符合所需，例如：是固定欄位長度內容的資料、還是用區隔符號定義的資料。
擷取出來的資料若不符合所需，則依照相對應的規則以決定該採取何種反應，如：另外紀錄錯誤問題並發出警告，但整個ETL流程仍繼續執行。
ETL作業能擷取一個檔案或同時進行多個來源端的資料擷取。

轉換：對資料進行適當的轉換，如型態轉換、字串相連、彙總運算等，本階段會將資料儲存成適當的格式，以利事後查詢與分析。這個步驟在 ETL 中不一定需要執行。

資料轉換具有以下特性：

可針對Excel、HTTP Web Page、XML、PDF與 Binary data 資料格式等檔案格式進行資料轉換。
基於商業邏輯上的需求，必須依照應用程式資料的特性來分類、匯總、轉換資料型態；或是把經年累月所聚集的歷史資料來作合併、統計、分折及計算。
本階段的轉換元件與功能通常是最多元、最豐富的，往往也是決定ETL產品的重要考量之一。
資料轉換就是將所擷取出之資料，交付予資料轉換元件（例：log資料轉換元件），逐一並循序地依照所設計好的規則進行轉換。
載入：將資料載入目的端，目的端通常是為了報表產製及商業智慧分析而最佳化的資料倉儲。

2. 文字檔案

常用的文字檔案包括以逗號分隔值檔案（Comma-Separated Values File，簡稱CSV File），其檔案以純文字形式儲存數字和文字資料。CSV檔案亦稱為字元分隔值檔案（Character-Separated Values File），因為分隔字元也可以不是逗號，例：分號（;）、Tab符號（–>）、bar符號（|）與空白字元。CSV檔案具有以下特性：

採用純文字，使用某個字元集，例：ASCII、Unicode、UTF-8或GB2312（簡體中文環境）等儲存。
每一橫列為一筆記錄組成。
每一筆記錄以分隔符號區分欄位。
每一筆記錄都具有相同的欄位順序。
在Windows環境中使用 Microsft Office Excel 等軟體執行檔案\另存新檔\存檔類型\ 選取「CSV(逗號分隔)()*.csv」 \ 按儲存即可儲存為CSV檔案。
開啟CSV檔案時，最後一列為空白列，該空白列須保留不可刪除，否則匯入至R/Python會有問題。參考圖2，其中第12列為空白列。

圖2 production.csv範例

範例1：匯入production.csv檔案。

CSV檔案匯入與資料分析工作包括以下五大步驟：

步驟1 設定工作目錄：

一般資料的匯入與匯出可以先考量工作目錄的概念。R/Python軟體具有工作目錄（Working Directory）概念，即預設讀取資料的目錄。以下說明以Windows 10作業系統與R軟體[https://www.r-project.org/]操作為主。使用getwd函數以取得工作目錄，設定工作目錄為setwd函數。本範例考慮工作目錄為「C:/rdata」。

setwd("C:/rdata")
getwd()
## [1] "C:/rdata"

步驟2 準備資料檔案：

本步驟為準備好即將匯入至R的資料檔案，一般初步使用建議將資料轉換為CSV檔案較方便於後續資料匯入。下載production.csv並儲存至C:\rdata。

資料來源：production.csv。

步驟3 匯入資料：

常用匯入資料為read.table函數，使用彈性較大，read.csv函數為限用CSV檔案。本例使用read.table函數以匯入CSV檔案。“production.csv”表示檔案名稱，header=TRUE表示第一列為資料欄名稱，sep=“,”表示資料以逗號區隔欄位，stringsAsFactors=FALSE表示不會將字串自動轉換為因子（Factor），而保持原字串資料型態。匯入至R之資料物件名稱為production，資料顯示為10筆，5個欄位。如果匯入資料產生亂碼情形，則可考慮以下三種解決方式：

使用記事本等軟體，將資料另存新檔且編碼設定為ANSI。
在read.table函數中加入 fileEncoding=“UTF-8”或適當編碼。
在read.table函數中加入 encoding=“UTF-8”或適當編碼。

production <- read.table("production.csv", header=TRUE, sep=",", stringsAsFactors=FALSE)
production
## 工號生產日期機台生產量目標量
## 1 1 2017/4/1 A 50 60
## 2 2 2017/4/1 A 60 60
## 3 2 2017/4/1 A 40 60
## 4 2 2017/4/2 B 70 100
## 5 3 2017/4/2 B 120 100
## 6 3 2017/4/3 B 80 100
## 7 4 2017/4/3 C 30 50
## 8 1 2017/4/4 C 35 50
## 9 4 2017/4/4 C 60 50
## 10 2 2017/4/4 C 80 50

步驟4 資料分析：

資料匯入完成後，首要步驟是分別使用str函數與summary函數進行資料結構理解與統計摘要分析。int表示整數（Integer），chr表示字串（String）或稱為字元（Chacter）。summary函數會輸出以下6個統計量：

Min ：最小值(Minimum)
1st Qu ：25百分位數，符號 Q1
Median ：中位數，符號 Q2
Mean ：平均數
3rd Qu ：75百分數位，符號 Q3
Max ：最大值(Maximum)

str(production)
## 'data.frame': 10 obs. of 5 variables:
## $ 工號 : int 1 2 2 2 3 3 4 1 4 2
## $ 生產日期: chr "2017/4/1" "2017/4/1" "2017/4/1" "2017/4/2" ...
## $ 機台 : chr "A" "A" "A" "B" ...
## $ 生產量 : int 50 60 40 70 120 80 30 35 60 80
## $ 目標量 : int 60 60 60 100 100 100 50 50 50 50
summary(production)
## 工號生產日期機台生產量
## Min. :1.0 Length:10 Length:10 Min. : 30.0
## 1st Qu.:2.0 Class :character Class :character 1st Qu.: 42.5
## Median :2.0 Mode :character Mode :character Median : 60.0
## Mean :2.4 Mean : 62.5
## 3rd Qu.:3.0 3rd Qu.: 77.5
## Max. :4.0 Max. :120.0
## 目標量
## Min. : 50
## 1st Qu.: 50
## Median : 60
## Mean : 68
## 3rd Qu.: 90
## Max. :100
# 新增達成率欄位，計算方式為生產量/目標量
production$達成率 <- round((production$生產量/production$目標量)*100)
production
## 工號生產日期機台生產量目標量達成率
## 1 1 2017/4/1 A 50 60 83
## 2 2 2017/4/1 A 60 60 100
## 3 2 2017/4/1 A 40 60 67
## 4 2 2017/4/2 B 70 100 70
## 5 3 2017/4/2 B 120 100 120
## 6 3 2017/4/3 B 80 100 80
## 7 4 2017/4/3 C 30 50 60
## 8 1 2017/4/4 C 35 50 70
## 9 4 2017/4/4 C 60 50 120
## 10 2 2017/4/4 C 80 50 160

# 繪製達成率統計圖
plot(production$達成率, xlab="人次", ylab="達成率(%)", main="2018年達成率統計圖", type="b", sub="製表:RWEPA, March 12, 2018")

步驟5 匯出分析結果：

最後步驟是將分析的結果，包括文字與圖檔等進行資料匯出，常用的文字資料匯出函數是write.table與R專用資料格式（RData）save函數。本例使用write.table函數匯出成production.output.csv檔案，使用save函數匯出成production.output.RData。

write.table(production, file="production.output.csv", sep=",", row.names=TRUE)
save(production, file="production.output.RData")

如果文字檔案是採用固定寬定方式儲存，則匯入資料時可採用 read.fwf 函數匯入。例：固定寬度檔案名稱是 myfix.txt，資料寬度分別為1, 2, 3個空白字元, 4個字元，則匯入方法如下，其中 -3 表示跳過3行不讀取：

read.fwf("myfix.txt", widths = c(1, 2, -3, 4))

3. Excel檔案

Excel檔案是常用辦公室資料檔案格式，除了以Microsoft Office Excel軟體進行操作，另外可使用readxl套件匯入Excel檔案並進行資料操作處理。

範例2：匯入 production.xlsx 檔案。

首先將範例1的 production.csv 另儲存成 production.xlsx。使用 excel_sheets函數理解工作表個數，使用 read_excel讀取工作表，其中mydf1，mydf2，mydf3結果皆相同。

library(readxl)
# 顯示工作表名稱
datasets <- "production.xlsx"
excel_sheets(datasets)
## [1] "production"
# 讀取Excel檔案
mydf1 <- read_excel(datasets) # 預設讀取第1個工作表
mydf2 <- read_excel(datasets, 1) # 指定第1個工作表
mydf3 <- read_excel(datasets, "production") # 指定工作表名稱

mydf1
## # A tibble: 10 x 5
## 工號生產日期機台生產量目標量
## <dbl> <dttm> <chr> <dbl> <dbl>
## 1 1.00 2017-04-01 00:00:00 A 50.0 60.0
## 2 2.00 2017-04-01 00:00:00 A 60.0 60.0
## 3 2.00 2017-04-01 00:00:00 A 40.0 60.0
## 4 2.00 2017-04-02 00:00:00 B 70.0 100
## 5 3.00 2017-04-02 00:00:00 B 120 100
## 6 3.00 2017-04-03 00:00:00 B 80.0 100
## 7 4.00 2017-04-03 00:00:00 C 30.0 50.0
## 8 1.00 2017-04-04 00:00:00 C 35.0 50.0
## 9 4.00 2017-04-04 00:00:00 C 60.0 50.0
## 10 2.00 2017-04-04 00:00:00 C 80.0 50.0

mydf2
## # A tibble: 10 x 5
## 工號生產日期機台生產量目標量
## <dbl> <dttm> <chr> <dbl> <dbl>
## 1 1.00 2017-04-01 00:00:00 A 50.0 60.0
## 2 2.00 2017-04-01 00:00:00 A 60.0 60.0
## 3 2.00 2017-04-01 00:00:00 A 40.0 60.0
## 4 2.00 2017-04-02 00:00:00 B 70.0 100
## 5 3.00 2017-04-02 00:00:00 B 120 100
## 6 3.00 2017-04-03 00:00:00 B 80.0 100
## 7 4.00 2017-04-03 00:00:00 C 30.0 50.0
## 8 1.00 2017-04-04 00:00:00 C 35.0 50.0
## 9 4.00 2017-04-04 00:00:00 C 60.0 50.0
## 10 2.00 2017-04-04 00:00:00 C 80.0 50.0

mydf3
## # A tibble: 10 x 5
## 工號生產日期機台生產量目標量
## <dbl> <dttm> <chr> <dbl> <dbl>
## 1 1.00 2017-04-01 00:00:00 A 50.0 60.0
## 2 2.00 2017-04-01 00:00:00 A 60.0 60.0
## 3 2.00 2017-04-01 00:00:00 A 40.0 60.0
## 4 2.00 2017-04-02 00:00:00 B 70.0 100
## 5 3.00 2017-04-02 00:00:00 B 120 100
## 6 3.00 2017-04-03 00:00:00 B 80.0 100
## 7 4.00 2017-04-03 00:00:00 C 30.0 50.0
## 8 1.00 2017-04-04 00:00:00 C 35.0 50.0
## 9 4.00 2017-04-04 00:00:00 C 60.0 50.0
## 10 2.00 2017-04-04 00:00:00 C 80.0 50.0

範例3：參考圖3，使用Excel開啟CSV檔案會有亂碼情形。

圖3 CSV檔案亂碼

改善方式之一是考慮使用文字編輯軟體，修改編碼方式，本例使用免費軟體Notepad++，將編碼由原先的「編譯成UTF-8碼（檔首無BOM）」修改為「編譯成 UTF-8 碼」，再儲存檔案後使用Excel開啟即沒有亂碼，詳細參考圖4之設定。

圖4 CSV檔案亂碼-UTF-8

4. 資料庫資料

關於微軟（Microsoft)大量結構性資料匯入與匯出，Microsoft SQL Server提供以下工具:

bcp公用程式 (bulk copy program): 提供大量資料匯入與匯出功能，可以由使用者指定格式，在 Microsoft SQL Server 執行個體與資料檔案之間大量複製資料。
BULK INSERT 陳述式:可將資料直接從資料檔案匯入至資料庫資料表或非資料分割的檢視，不提供匯出資料功能。
BULK INSERT 陳述式與 INSERT…SELECT * FROM OPENROWSET(BULK…) 陳述式 :將大量資料檔案匯入到 SQL Server 資料表中，不提供匯出資料功能。
SQL Server Data Tools (SSDT) 來執行 SQL Server 匯入和匯出精靈。

資料來源：https://docs.microsoft.com/zh-tw/sql/relational-databases/import-export/bulk-import-and-export-of-data-sql-server

R可採用 RODBC 套件與Microsoft SQL Server資料庫連結，其中 sqlQuery 函數可執行資料匯入至R/R物件寫入SQL資料庫，部分執行畫面參考圖5，詳細參考 RODBC 與 SQL Server 資料匯入與寫入。

圖5 RODBC-寫入

5. JSON檔案

JSON（JavaScript Object Notation）是一種由Douglas Crockford 構想和設計、輕量級的資料交換語言，該語言以易於讓人閱讀的文字為基礎，用來傳輸由屬性值或者序列性的值組成的資料物件。儘管JSON是Javascript的一個子集，但JSON是獨立於語言的文字格式，並且採用了類似於C語言家族的一些習慣，詳細參考官方網站[http://www.json.org/]

資料來源：https://en.wikipedia.org/wiki/JSON。

JSON資料物件包括：

物件 object : {name:value}
陣列 array : [x1, x2, …]

JSON資料型態包括：

空值（null）。
邏輯值（true, false）暨布林值。
數值（number），沒有區分整數與具有小數點數。
字串（string）。

RJSONIO 套件提供以下二大函數，詳細參考函數線上說明：

toJSON() : 轉換 R 物件為 JSON 字串。
fromJSON() : 轉換 JSON物件為 R 物件, 資料來源包括 URL, File, R物件。

JSON資料參考圖1.4.6 JSON-錄影節目影片範例。

圖6 JSON-錄影節目影片範例

資料來源：http://vida.moc.gov.tw/VIDA411.ASP?ISSUEYM=10306

6. 大型資料

大型資料指的是單一檔案較大，使用傳統read.table或read.csv函數可能匯入時間教長，此時可使用data.table套件的fread函數以提升匯入效能，詳細參考以下圖7 大型資料範例。

圖7 大型資料範例

上述大型資料亦可使用 bigmemory套件匯入資料，參考圖8 大型資料-bigmemory範例。

圖8 大型資料-bigmemory範例

7. 大量資料

大量資料指的是檔案較多時，使用傳統　read.table或　read.csv函數逐一匯入較不方便，此時可使用　lapply函數，詳細參考以下大量資料範例，考慮將三個檔案，每個檔案是10列5行，合併為單一資料物件30列5行。

lapply 函數主要包括2個參數 lapply(資料物件, 函數)，其回傳結果是串列（list）：

第一個參數是須要處理的資料物件，一般是向量資料，本例 files 表示三個檔案路徑。
第二個參數是函數，本例是 read.table，後續「header=TRUE, sep="," 」是配合　raed.table使用。

do.call 函數是將三個串列合併為一個資料框（data.frame）。

# 大量資料範例
working_path <- "C:/rdata"
setwd(working_path)
getwd()
## [1] "C:/rdata"
sample1 <- iris[sample(1:nrow(iris),10),]
sample2 <- iris[sample(1:nrow(iris),10),]
sample3 <- iris[sample(1:nrow(iris),10),]

write.table(sample1, file="sample1.csv", sep=",", row.names=FALSE)
write.table(sample2, file="sample2.csv", sep=",", row.names=FALSE)
write.table(sample3, file="sample3.csv", sep=",", row.names=FALSE)

files <- dir(getwd(), pattern="sample.*.csv", recursive=TRUE, full.names=TRUE)
files
## [1] "C:/rdata/sample1.csv" "C:/rdata/sample2.csv" "C:/rdata/sample3.csv"

tables <- lapply(files, read.table, header=TRUE, sep=",") # list

sample.all <- do.call(rbind, tables) # data.frame

str(sample.all)
## 'data.frame': 30 obs. of 5 variables:
## $ Sepal.Length: num 5.4 4.7 5.7 6.3 6.6 7 5 4.4 5.4 6.3 ...
## $ Sepal.Width : num 3.9 3.2 2.8 2.5 3 3.2 3.6 3 3 2.5 ...
## $ Petal.Length: num 1.7 1.3 4.1 5 4.4 4.7 1.4 1.3 4.5 4.9 ...
## $ Petal.Width : num 0.4 0.2 1.3 1.9 1.4 1.4 0.2 0.2 1.5 1.5 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 2 3 2 2 1 1 2 2 ...
# end

訂閱：文章 (Atom)

2023年11月14日 星期二

分析:

輸出套件清單:

489套件清單:

2022年1月29日 星期六

2020年9月26日 星期六

主題

關鍵字

套件

R程式碼下載

R程式碼

2020年6月17日 星期三

2019年11月2日 星期六

2018年10月27日 星期六

步驟1：下載社會經濟開放資料

步驟2：下載地圖資料

步驟3：匯入地圖資料至R

步驟4：匯入臺北市住宅竊盜點位資訊資料

步驟5：將臺北市住宅竊盜點位資訊整合至twn.taipei@data

步驟6：臺北市住宅竊盜分佈圖

2018年9月23日 星期日

2018人工智慧與資料科學應用研討會

2018年4月7日 星期六

R資料匯入與匯出

1. ETL簡介

2. 文字檔案

3. Excel檔案

4. 資料庫資料

5. JSON檔案

6. 大型資料

7. 大量資料

2023年11月14日星期二

2022年1月29日星期六

2020年9月26日星期六

2020年6月17日星期三

2019年11月2日星期六

2018年10月27日星期六

2018年9月23日星期日

2018年4月7日星期六