大數據

大數據分析架構及流程

撰文者:張裕宇

大數據分析這個名詞,有時可能會在不同的地方會有不同的名詞。有些人可能會把它叫為資料探勘,有些人可能把它叫為資料分析,或者甚至是資料科學。而相關對應的職稱可能就被稱為資料工程師、資料科學家或者是數據分析師等。

但總之,這些名詞或工作要做的事就是要用來收集、處理和分析如何去使用可用的數據,來發現重要的見解。而這些見解可能可以用在工程上、科學上、醫學上,或者甚至在商業裡來幫助企業找出商業機會、提高效率或者是解決問題等。所以大數據分析是非常重要的工具方法,以用來做一些判斷或決策。

很多時候,在一大堆龐大的資料裡面,光是單憑靠人類處理資料的能力。其實常常是沒有辦法發現到細節或者是有用的資訊。拜現今科技如電腦運算能力的提升以及人工智慧的演算法,我們現在已經可以靠大數據分析來幫我們找出隱藏在這一群資料裡面的寶貴資訊和方向。

很多時候想透過大數據的分析和處理來發掘現象、解決及處理問題。這時候,了解相關的大數據分析架構及流程,並且能大致上知道一些名詞和技術,便比較能和執行大數據分析的專家來溝通。雖然一般人不見得要對大數據分析的技術和工具完全了解,畢竟其實大數據分析是一個很專門的知識領域,裡面牽扯到的技術和理論,有時候可能會有很繁複的像是統計或者是數學概念在裡面,甚至可能都還要具備一些程式編寫的一些技能。但是,如果要是不知道怎麼去這些跟處理大數據分析相關的專家溝通的話,便很難拿到自己所想要的資訊和一些洞察見解。

對一般人來說,要是能夠了解其中的基本概念和一些術語,這樣就可以幫助去跟大數據分析師來做溝通,以得到所想要得到的內容。因此,能夠了解大數據分析相關內容,便成為在這個人工智慧的世代裡需具備的重要技能。

這裡為大家介紹一般大數據分析的架構以及它的流程。並以大數據分析的四個階段來做說明大數據分析的整個流程。這四階段分別為

1、問題定義與架構

2、資料準備

3、建立資料分析模式

4、結果解釋與評估

大數據分析架構及流程

圖1. 大數據分析架構及流程

首先是問題的定義以及它的架構。

在我們在做大數據分析的時候,首先第一步便是要先釐清問題。因為我們要是不知道我們要解決的問題是什麼,最終我們是沒有辦法得到答案的。所以第一步便是我們要先去試圖了解要解決的問題是什麼,然後把目標設定在有興趣的方向,這樣子我們在做大數據分析的時候才會是有效率的,而分析出來的結果才能夠讓我們去做有用的決策。因此在這大數據分析的第一個階段,便是要有效的定義問題以及架構。

第二個階段就是資料的準備。

既然我們的問題已經被定義出來了,我們知道現在的現況是什麼,然後未來我們想達到的狀況是什麼,中間的差距其實就是我們要去試圖找出的答案。看看能不能找出什麼方法,能夠得到我們想要的一些資訊。

所以在這裡也許我們會有很多的資料,很多人可能就是直接把這些資料全部拿過來處理。這樣子雖然有好處,它的好處是,有時候你可以看到一些你可能之前想像不到的東西。但它會帶來更大的缺點,比方來說你有了這些雜亂的資料,很多資料其實是跟你想要解決的問題是不相干的。

這樣子我們得到出來的結果,它就有可能是失真,甚至會誤導你在做決策這個部分。所以我們在做資料準備的時候,我們一定要非常清楚我們到底需要什麼樣的資料,然後利用這些資料來去做接下來的資料分析。而資料的選擇,常常因為問題的定義會有所不同。有時候這些資料是可以從內部就可以取得到,有時候,這些資料是要從外部才可以拿到。所以,在確認問題的時候,而且我們也拿到了資料,這時我們就必須先將這些資料去蕪存菁,接著把這些資料簡化,讓它可以變成我們可以分析的一種格式。接下來我們才比較能夠確保
資料的品質以及分析結果的正確性。

而資料的準備大致上分為質跟量兩個部分。

在質的部分,便是我們要的這些資料,它必須是可以跟我們接下來要分析的內容是有關係的。

而第二個便是量的部分。通常我們在做大數據分析的時候,如果我們得到的數據量要是不夠多的話,我們最終得出來的結果可能會不具代表性。所以這邊的資料數據量至少要能夠足夠讓我們去做有效的分析。

而有了這些資料,也做了這些資料準備之後,接下來便是要做這個整個大數據分析的模型架構,這就到了第三階段的建立資料分析模式。

可能這裡的資料分析模型,大家會看到最近一些很熱門的名詞。比方來說,機器學習或者是人工智慧等。沒錯,現在的大數據分析非常倚重機器學習或者是人工智慧相關的演算法。這些都是現在在做大數據分析的資料分析模型常用的一些技術。

透過這些工具跟模型,我們就可以得到一些我們也許之前是連想都沒想到的結果。有了這些結果我們就可以去跟其他相關的利害關係人來做這方面的結果解釋以及評估,這就到了第四個階段的結果解釋與評估。

到了第四個階段的結果解釋與評估,分析得出來的結果,我們透過跟領域專家來討論這樣的結果呈現,來做詮釋和解讀,這樣最終就可以達到我們所想要的分析結果或決策方向等。

當然,這四個階段其實並不是說,你從第一個階段到第二階段,接下就一定會到第三個階段。很多時候你可能在第二個階段覺得有問題的時候,這時候便會再回到第一個階段。所以這個四個階段,它有點類似像是遞迴式的,並且它也可以再往回到前面的階段再去做更進一步的優化,再去做更進一步的準備,然後產生出下一步更優秀的資料結果。

這就是整個大數據分析的架構以及流程,接下來我會針對每個架構的階段來為各位做詳細的介紹。