拿到資料就可以套用各式各樣的演算法模型?

Mora chen
3 min readSep 24, 2019

--

很可惜,事情沒有想像的這麼美好

在進入資料分析的領域時,很習慣一拿到資料就套入我們熟知的一些演算直接看預測的結果,但常常會發現怎麼跑出來結果不如我們想像中的好? 這時就會停頓下來就束手無策了,但有時候解答就藏在細節裡。

在找尋解答的過程中,會跑出特徵工程的關鍵字,那甚麼是特徵工程(feature enginner )? 因此就有了一個想法,想透過 kaggle上面的資料集來領略特徵工程的意涵,首先就用一個簡單的例子,以資料敏銳力的角度來看特徵工程。

本篇文章會說明:

什麼是資料敏銳力

資料敏銳力和特徵工程的關係性

不管在教學或者是求職版上,大家都很重視演算法的使用能力,但是卻不重視資料力,也就是資料的敏銳力,那甚麼是資料的敏銳力?

1.資料敏銳力

就是怎麼從原始資料集中,找出某些特徵和目標函數有強關聯的能力,首先先回想一下,你是不是有這樣的經驗,聽腳步聲就能辨識出來這是不是老闆走過去,看背面走路的姿態就能辨識出來這是不是某個同事,如果你有類似的經驗,或許走在路上常常會說,我在某個場合曾經看過他,恭喜你不是屬於" 臉盲"一族,對於人的資料你有很強太大的認臉的敏銳力,但資料敏銳力和特徵工程有甚麼關聯性?

2.資料敏稅力和特徵工程的關聯性

我們來做一個小測驗,下面有一張圖,你能在5秒內,找出某些特徵能分辨出下列三個人?

答案是嘴巴顏色和膚色,你答對了嗎,不知道你是怎麼找出這些特徵?

在這一個例子中,每一個人都記錄了三種原始資料,分別是眼睛型態,嘴巴顏色和膚色。眼睛在這三個人中的樣態都一樣,所以沒有鑑別能力。嘴巴顏色和膚色在這三個人中是有變化性的,或許可能適合拿來做特徵辨識這三個人,剛好透過不同的嘴巴顏色和膚色就能分辨出這三個人,目標任務: 辨識出照片中的三個人,就可以透過嘴巴顏色和膚色來做辨識,人腦透過特徵的融合後萃取出嘴巴顏色和膚色能辨識出照片中的三個人。

3.特徵工程的定義與特性

特徵工程是基於原始資料中創造新的特徵,藉此改善模型性能的過程

然而透過上面小小的例子,你有發現特徵有甚麼特性嗎?

在原始資料集中對於目標有變化性的,才能稱為特徵

透過這些特徵能把目標做清楚的分類與預測,才能稱為好的特徵

用這一個小小的例子,來說明日常生活中你也可能是特徵工程的高手,然而事情沒有那麼美好~

你有很強的辨識人的能力,就能代表你辨識魚種的能力也很強?

你有很強的辨識人的能力,就能代表你辨識植物的能力也很強?

以我為例,我很會認人,但是辨識植物的能力就很差,這就是所謂知識偏好(領域知識)導致不同的資料型態有不同的敏銳力,而這就是特徵工程很難的地方,是一種客製化的服務,就如同Andrew Ng說的,特徵工程是困難且耗時的,但卻就是應用機器學習演算法的基礎。

Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering.

— Andrew Ng

因此,接下來我想透過kaggle的資料集,帶大家進入特徵工程的領域,一步一步建立你的資料敏銳力。

參考資料:

1.Feature engineering on wiki

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Mora chen
Mora chen

Written by Mora chen

資料科學家與生活實踐者,心理學是我的興趣,期許自己能透過資料、心理與烹煮讓生活與世界更美好,逐步累積,https://morachen.netlify.com/

No responses yet

Write a response