什麼是機器學習?
機器學習是一種人工智慧類型,可在沒有明確指示的情況下執行資料分析任務。機器學習技術可以處理大量歷史資料,識別模式,以及預測先前未知資料之間的新關係。您可以對文件、影像、數字和其他資料類型執行分類和預測任務。
例如,金融組織可以訓練機器學習系統來分類欺詐和真實交易。系統識別已知資料中的模式,以準確地猜測或預測新交易是否真實。
簡單介紹機器學習?
ML 是機器學習的縮寫,這是人工智慧 (AI) 和電腦科學的一個分支,它利用資料和演算法支援 AI 系統以類似人類的方式學習和改進,並隨著時間的推移逐漸提高其準確性。
機器學習與人工智慧有何差異?
雖然機器學習和人工智慧 (AI) 經常被混用,但兩者並不相同。機器學習是 AI 的分支之一。因此機器學習是一種 AI,但並非所有 AI 都是機器學習。
人工智慧是一個廣泛的定義,任何讓機器更像人類的科技或技術都可以稱為人工智慧。從智慧助理如 Alexa、聊天機器人和影像生成器到打掃機器人和自動駕駛汽車,這些都屬於 AI。
反之,機器學習模型則執行更具體的資料分析任務,例如分類文件、標記影像或預測工廠設備的維護時程。機器學習技術主要以數學和統計學為基礎,而其他類型的 AI 則更複雜。
機器學習如何運作?
機器學習的核心概念是找到輸入與輸出資料對之間的數學關聯。機器學習模型一開始並不知道這個關聯是怎樣的,但隨著給予其足夠的輸入-輸出資料集範例,模型的預測會越來越準確。因此,每個機器學習演算法都是基於一個可修改的數學函數建立的。以下的例子可以幫助您了解基本原理:
- 我們可以使用這些輸入/輸出資料對 (i,o) 來「訓練」演算法 – (2,10)、(5,19) 和 (9,31)
- 演算法運算出這些輸入與輸出之間的關聯為:o=3*i+4
- 接著,我們將輸入設為 7,並要求算法給出預測的輸出。算法即會自動算出輸出為 25。
雖然這只是簡單的範例,但機器學習的原理即是找出資料的關聯性。無論是多麼複雜的資料,只要有足夠的資料和能夠處理資料的運算能力,電腦系統總是能找出資料之間的數學關聯。因此,輸出結果的準確性與輸入資料的數量直接相關。機器學習階段如下說明。
資料預先處理
原始資料會遭清除並轉換,以訓練機器學習模型。其中需處理內容缺失、將資料標準化為常見比例或將文本資料編碼為數字格式等。也可以強化或操縱資料,以改進模型對特定使用案例的處理。預先處理可確保輸入到模型的資料合適且經適當架構。
訓練模型
預先處理的資料會用於訓練機器學習演算法。演算法會嘗試反覆從訓練資料找出輸入和預期輸出內容間的數學關聯性。模型會學習資料中的模式和關聯,將這些知識濃縮在其參數中。接著模型會調整參數,盡量降低預測內容與訓練資料中已知實際結果之間的差異。
評估模型
評估目標是要確保模型可以在訓練資料集之外進行概括。稱為「驗證集」的獨立資料集即用於此目的。模型輸出會透過不同指標和基準予以測量。舉例而言,如果有個模型透過訓練要識別籃子中水果 (例如蘋果和香蕉) 的圖片。評估過程會檢查模型是否能從呈現水果放在桌上或手中的圖片當中,正確找出相同水果。
最佳化
最佳化過程需精煉模型以提高其成效。根據模型類型,資料科學家可以重新設定學習流程或執行特徵工程,從現有資料建立新的輸入特徵。目標是提高模型的準確度和效率,並讓模型能更全面地概括新資料。
機器學習的優勢有哪些?
資料是商業決策的關鍵推動力。現代組織會從智慧感測器、客戶入口網站、社群媒體和應用程式日誌等數千個來源生成資料。機器學習可以自動化和最佳化資料收集、分類和分析的過程。企業可以推動成長、開發新的收入來源,並更快速地克服挑戰。
機器學習的優勢包括:
強化決策
機器學習系統可以快速準確地處理和分析大量資料。不僅如此,系統也可以即時歸納出動態且複雜資料中的隨機模式。組織可以在執行時期讓資料推動決策,並更有效率地回應不斷變化的環境。組織更可以從容地最佳化營運過程並減緩風險。
自動化重複性工作
機器學習演算法可以在沒有人為干預的情況下過濾、整理和分類資料。也可以概述報告、掃描文件、轉錄音檔以及標記內容,這些工作對人類來說既繁瑣又耗時。自動化例行和重複性工作可以大幅提高生產力並降低成本。您也可以獲得更高的準確度和效率。
改善客戶體驗
機器學習會透過個人化來改善客戶體驗。例如,零售商會根據先前的購買紀錄、瀏覽歷史紀錄和搜尋模式向消費者推薦產品。娛樂產業當中,串流服務可以自訂觀賞建議。透過個人化方法,可以提升客戶保留率和品牌忠誠度。
主動式資源管理
組織可以透過機器學習精準預測趨勢和行為。例如,預測分析可以預測庫存需求並最佳化庫存量,以降低日常開銷成本。預測洞察則對規劃和資源分配至關重要,讓組織化被動為主動。
持續改善
機器學習的獨特優勢在於其處理越多資料越能改善系統品質。機器學習系統可以適應新的資料並從中學習。系統會調整和提升成效,以便持續保持實用性和相關性。
機器學習使用案例有哪些?
以下是機器學習在某些關鍵產業中的應用:
製造業
機器學習可以為製造業的預測性維護、品質控管和創新研究提供幫助。該技術也可以幫助企業改進後勤解決方案,包括:資產、供應鏈和庫存管理。例如,製造巨頭 3M 使用機器學習創新砂紙製造。機器學習演算法可讓 3M 的研究人員分析形狀、大小和方向的細微變化會如何影響砂紙的研磨性和耐用性。這些資訊可以用來改進製造業過程。
醫療保健與生命科學
穿戴式感應器和裝置不斷普及,帶來了大量的健康相關資料。機器學習程式會分析這些資訊,並幫助醫生即時診斷及治療病人。機器學習研究者也正在研究能檢測癌症腫瘤和眼疾的方法,這對人們的健康有著重大的意義。例如,Cambia Health Solutions 使用機器學習來自動化和自訂對於孕婦的治療。
金融服務
金融機器學習專案改善了風險分析和控制。透過分析股票市場的動向、評估對沖基金,或調整金融投資組合,機器學習技術能讓投資者找到新的投資機會。另外,機器學習還可以協助辨識高風險貸款客戶並降低被詐騙的可能。例如,個人金融公司 NerdWallet 使用機器學習來比較信用卡、銀行服務和貸款等金融產品。
零售
零售產業可以使用機器學習來改善客戶服務、倉儲管理、向上銷售和跨通路行銷。例如,Amazon Fulfillment (AFT) 使用機器學習模型識別錯放的庫存,從而將基礎設施成本降低 40%。這也幫助他們確保商品能準時送達客戶手中,即使每年都要經手數百萬件全球貨物,也能維持住 Amazon 的高服務品質。
媒體與娛樂
娛樂產業公司使用機器學習來幫助他們了解目標觀眾的喜好,帶來能讓觀眾身臨其境的個人化隨需內容。機器學習演算法的部署可助益設計預告片和其他廣告、提供觀眾個人化的內容推薦,甚至提高內容生產效率。
例如,Disney 使用機器學習來封存其媒體程式庫。機器學習工具可以自動化標籤、描述並整理影音內容,讓 Disney 的作家和動畫師可以更快地找到並熟悉 Disney 的角色。
電腦視覺
電腦視覺是一種自動辨識影像並準確有效地描述影像的技術。如今,電腦系統可以從智慧型手機、測速照相機、安全系統和其他裝置存取許多圖像和影片。電腦視覺應用程式會使用機器學習精確地處理這些資料,以進行物件識別和臉部辨識,以及分類、建議、監控和偵測。
例如,CampSite 是領先的夏令營軟體平台。他們的營地每天上傳數千張照片,讓父母更能參與孩子的營隊體驗。對父母來說,他們要花很多時間和精力找到自己孩子的照片。對此,CampSite 透過機器學習自動識別影像,並在上傳孩子的新照片時通知父母。
機器學習演算法有哪些類型?
機器學習演算法可以根據輸入和輸出的類型分為四種。
監督式機器學習
資料科學家提供已標記和定義過的訓練資料給演算法,讓演算法找出資料間的關聯。訓練用資料必須包含演算法的輸入與輸出。資料標記是將輸入資料標記上其應該得到的輸出值。例如,假使現在有數百萬張蘋果和香蕉的相片,這些相片需要根據其內容被標記為「蘋果」或是「香蕉」。 然後,機器學習應用程式可以在接收水果相片時透過這些訓練資料來猜測水果名稱。
監督式學習的結構很簡單,因此很容易設計。當可能的輸出結果有限、需要將資料分類,或要結合兩個其他機器學習演算法的結果時,監督式學習是很好的辦法。但是,如何將數百萬筆資料標上標記是個問題。
無監督機器學習
無監督學習演算法使用未標記的資料進行訓練。這些算法會掃描所有資料,從而在輸入值與預設的輸出值之間建立有意義的關聯。這類算法可以找出模式和分類資料。例如,無監督演算法可以將來自不同新聞網站的新聞報導分類進各種不同的新聞類別,比如運動類新聞或犯罪新聞等等。它們可以使用自然語言處理來理解報導的內容含意和表現出的情緒。在零售產業中,無監督學習可以識別出客戶購買模式並提供資料分析結果。例如,如果消費者買了奶油,則很有可能也同時購買麵包。
無監督學習在辨識模式、偵測異常和自動分類資料的任務中很有用。由於其不需要標記過的訓練資料,它的設定相當簡單。這些演算法也可以用來清理和處理資料,以進行自動建模。此方法的限制在於無法提供精確預測,也無法獨立找出特定資料結果。
半監督式學習
如同其名,辦監督學習結合了監督學習和無監督學習。這項技術使用少量的已標記資料和大量的無標記資料來訓練系統。首先,半監督學習會用已標記的資料訓練機器學習演算法。之後再使用經過部份訓練的演算法來標記那些未標記的資料。這個過程稱為偽標記。接著再直接使用產出的資料和原本的已標記資料一起重新訓練模型。
這個做法的優點是不需要大量的已標記資料。像大型文件這種資料就需要花費大量時間閱讀,很難取得標記過的資料。
強化學習
強化學習在演算法的不同步驟設定所謂的獎勵值。模型的目標是在過程中盡可能地獲得最多的獎勵值。在過去的十年中,強化學習的實際應用多半在遊戲領域中。最先進的強化學習演算法已經在各類遊戲中取得了巨大的成果,甚至完勝人類對手。
強化學習的挑戰是,真實世界環境經常發生重大變化,並且警告有限。這樣會讓演算法更難以在實務中有效率。開發人員的偏見也會影響結果。根據資料科學家設計的獎勵不同,強化學習的結果也會跟著改變。
深度學習
深度學習是一種以人腦為參考開發的機器學習技術。深度學習演算法使用與人類相近的邏輯結構來分析資料。它們透過人工神經網路在各層中處理資訊。人工神經網路 (ANN) 由稱為人工神經元的軟體節點組成,這些節點會集中處理資料。資料從神經元輸入層開始,經過數個「深度」的隱藏神經網路層,最後到達輸出層。這些隱藏的神經網路層能幫助學習,效果比起標準機器學習模型好上許多。
機器學習模型有確定性嗎?
如果一個系統的輸出是可預測的,我們可以說它具有確定性。大多數軟體應用程式都是根據使用者指令運作,所以您可以明確地說:「如果使用者按了那個按鈕,會出現這樣的結果」。 但是機器學習演算法會透過觀察和經驗學習。因此,機器學習的本質是機率性的 (不確定的)。狀況會變成:「如果使用者按了那個按鈕,有 X% 的機率會出現這樣的結果」。
在機器學習中,策略是否具有確定性可以在進行上述訓練時選擇。無論是監督式、非監督式或其他的訓練方法,都可以根據業務需要訓練出確定性的策略。根據要研究的問題、資料的檢索、結構和儲存方式來決定要訓練出確定性還是非確定性的策略。
確定性與機率性的方法比較
確定性的方法更注重收集到的資料的準確性與數量,因此效率比不確定性更重要。另一方面,非確定性 (機率性) 的方法則是用來處理不確定因素。內建工具已整合進機器學習的演算法中,以幫助模型在學習和觀察的過程中量化、辨識並量測不確定性。
您可以在組織中如何實作機器學習?
開始使用機器學習時需要實作機器學習生命週期。其中包含以下階段。
業務目標
考慮使用機器學習的組織應首先確認其要解決的問題。找出您透過機器學習解決問題之後能獲得的商業價值。您可以使用具體標準來衡量業務目標的商業價值嗎? 目標導向方式能協助您交代支出並說服主要利害關係人。
問題建構
下一步,將商業問題建構為機器學習問題。確認觀察內容以及應預測的內容。此階段的關鍵步驟是決定要預測的內容,以及如何最佳化相關成效和錯誤指標。
資料處理
資料處理會使用機器學習演算法將資料轉換為可用的格式。過程包括以特徵工程來識別、收集和預先處理資料。您可以從資料建立、轉換、擷取和選取機器學習變數。
模型開發和部署
如上一節所述,這是訓練、調整和評估模型的核心過程。它包括建立 MLOps。機器學習維運 (MLOps) 是一個實務集,可自動化和簡化機器學習 (ML) 工作流程及部署。它們會統合 ML 開發與部署和操作。例如,您可以建立 CI/CD 管道,將建置、訓練和發行自動化至暫存和生產環境。
監控
模型監控系統可以確保您的模型透過早期檢測和緩解,保持所需的成效水準。其中包括收集使用者回饋以維護和改進模型,才能持續保有實用性。
機器學習實作時可能面臨哪些挑戰?
以下為機器學習實作時可能面臨的挑戰。
資料品質
機器學習模型的成效取決於訓練所用的資料品質。內容缺失、資料項目不一致和冗餘資料等問題皆可能大幅降低模型準確度。此外,如果資料集不足,模型可能無法有效學習。兼顧資料完整性、品質和擴展資料收集是一項長期挑戰。
過度擬合與擬合不足
當機器學習模型學習了訓練資料中過於繁瑣和冗餘的資料,影響模型針對新資料的成效,即為過度擬合。模型會擷取無法概括其他資料集的模式。另一方面,當模型無法學習資料的基礎模式即為擬合不足,導致訓練和測試資料的成效低落。平衡模型的複雜度和概括能力是一項關鍵挑戰。
偏見
資料可能在許多真實應用中失衡,這表示部分類型的資料比其他資料出現頻率更高。這類失衡可能影響訓練過程,導致模型在多數類型資料上表現良好,但無法準確預測另外的少數資料。舉例而言,如果歷史資料優先處理特定的人口統計資料,則人資應用所使用的機器學習演算法可能會繼續優先採納這些人口。資料重新取樣、使用不同評估指標或套用異常偵測演算法等技術,可以減輕部分問題。
模型可解釋性
隨著機器學習模型 (尤其深度學習模型) 變得越來越複雜,它們的決策也越來越難解釋。找出方法兼顧模型可解釋性和成效是一項重要挑戰。這會影響機器學習系統部署的可用性、可靠性和道德考量。
可擴展性
機器學習模型 (尤其涉及大型資料集或深度學習等複雜演算法的模型) 需要大量的運算資源。訓練這些模型可能既耗時又耗錢。如果要最佳化演算法以降低運算需求,其中會涉及演算法設計的挑戰。AWS 雲端服務可以支援大規模具成本效益的實作。
面向初學者的機器學習培訓有哪些?
機器學習需要在數學、統計、編碼和資料技術方面擁有強大的基礎。希望在機器學習方面取得進步的人員應考慮取得人工智慧或資料科學碩士學位。這些學位的課程通常涉及神經網路、自然語言處理和深度電腦視覺等主題。
然而,正規教育並不是唯一的途徑。您可以使用線上課程,按照自己的節奏學習並掌握特定技能。AWS 上的機器學習培訓包括 AWS 專家針對以下主題的認證:
AWS 機器學習可提供哪些協助?
AWS 讓每個開發人員、資料科學家和企業使用者都能掌握機器學習。AWS Machine Learning 服務提供高效能、價格合理且可擴展的基礎設施,以符合商業需求。
- 剛入門嗎? 藉助我們的 AWS DeepRacer 與 AWS DeepComposer 等實作教育裝置來了解機器學習。
- 已有資料封存? 使用 Amazon SageMaker Ground Truth 開始內建的資料標記工作流程,其支援影片、圖片和文字。
- 已有機器學習系統? 使用 Amazon SageMaker Clarify 來偵測偏差,以及使用 Amazon SageMaker Model Training 來監控及最佳化效能。
- 想要實作深度學習嗎? 使用 Amazon SageMaker Model Training 來自動訓練大型的深度學習模型。
立即 建立免費 AWS 帳戶,開始使用 AWS 上的機器學習!