【怎麼評估分類型 AI 模型可以上戰場?】系列文介紹

Mora chen
Jul 4, 2021

--

近幾年,AI 模型從 paper 中躍進於各產業中,但當模型訓練好後,工程師常常會陷入一種狀況,我要怎樣呈現模型現在的好壞?怎樣評估我的模型可以上戰場?

如果跟 paper 一樣,把所有可以用來評估 AI 模型效能的指標,一股腦地全部放上來,有時候,資訊越多,反而越難做決策,所以我腦中一直在思考,

是否有一套具有邏輯性的流程來闡述分類型 AI 模型的效能?

最近在工作上,有機會接觸到 FDA 的相關文件,看到了文件中所闡述各種 AI 模型的指標後,加上過往的工作經驗,讓我理出了一些頭緒,想透過這篇文章,破題跟大家分享與討論。

闡述分類型 AI 模型的效能,應該具有這三個面向,包含整體性評估,應用性評估與穩定性評估,這三個面向在呈現上是有其順序性的,

1.首先透過呈現 ROC 圖與 AUC 數值呈現模型的整體狀況,同時可以比較自家模型和其他模型的優劣。

2.透過固定閾值的方式,來計算相關指標,如準確度,召回率等,實際說明 AI 模型實際應用後,使用者會實際感受到模型的狀態。

3.最後搭配信賴區間,說明不同的測試資料集上,上述指標的變動程度,來說明模型實際上線後模型指標的可能變化範圍。

接下來系列文中,將分為三個部分,我將循序漸進,

  1. 從應用性評估開始, 透過例子,介紹分類型 AI 模型常用的指標與應用的情境,讓使用者能根據需求挑選適合的指標呈現。
  2. 切入整體性評估,來說明 ROC 圖與 AUC 是什麼,FDA 文件中,分類型 AI 模型的 AUC 的下限為多少?
  3. 最後, 你一定感覺上述的指標說明模型就足夠了,為什麼還需要信賴區間的資訊? 最後一篇,將說明什麼是信賴區間,以及為什麼信賴區間可以說明明模型上線後的穩定度。

你對這個系列文感興趣嗎?

# AI模型指標

#系列文

--

--

Mora chen

資料科學家與生活實踐者,心理學是我的興趣,期許自己能透過資料、心理與烹煮讓生活與世界更美好,逐步累積,https://morachen.netlify.com/