研發紀事

文章

顯示從 7月, 2023 起發佈的文章

[筆記] 百度飛槳 PaddlePaddle 平台的介紹

- 7月 20, 2023

近年來，人工智慧 AI 的浪潮持續發酵，然而，實際上AI的定義和運作方式並不容易說得清楚。AI是一個廣泛的領域，涵蓋了各種技術和應用，其核心目標是讓機器模仿人類的智能和學習能力。就技術的角度而言，確實需要具備並累積相當多的數學背景知識，例如：微積分、機率、線性代數、矩陣行列式 ...等，這些知識是理解機器學習 ML 的理論基礎不可或缺的要素。在機器學習中，數學扮演了關鍵的角色，它們構成了算法和模型背後的數學原理，幫助我們解釋和理解機器學習的運作方式。熟悉這些數學概念和技巧，有助於更深入地探索機器學習領域，並設計出更有效和強大的學習模型。前一篇[1] 大略整理了人工智慧 AI 、機器學習 ML 、深度學習 DL 三者的關係，然而，深度學習的技術發展才是真正推動人工智慧在應用面取得大幅進展的主要因素。深度學習以類神經網路為基礎搭配硬體的高效運算能力，進一步改進了許多應用領域，如圖像識別、語音辨識、自然語言處理...等。這些技術的突破性進展使得人工智慧應用的範疇不斷擴展，並為許多行業帶來了革命性的變化和創新。雖然機器學習的理論基礎複雜，不過整體開發的流程可以歸納成下圖的管線，就像是面對問題、分析問題、解決問題、放下問題一樣，有一套標準步驟。首先定義問題是不是需要靠深度學習的方法才能解決？再來是收集資料，足夠的資料量或不夠的資料會決定接下來採用哪種模型。有了模型後，才會訂定最佳化的標準，進行一輪又一輪的訓練。最後，用「未訓練」的數據來評估訓練後的模型，看看效果好不好。如果達到預期，則保留模型的參數。有關機器學習的課程，可以到百度人工智能學習社區 https://aistudio.baidu.com ，先有一些基礎知識後再來開發 AI 會事半功倍。圖一：機器學習的萬能公式 (取自飛槳平台) 從設計模型的方面來看，在飛槳 Paddle framework 上，提供三種開發的方式給工程人員建立模型與訓練，如下圖二所示。機器學習中的各個模型都有著複雜的數學計算和公式，如果要一個一個用程式碼寫出模型的功能，那大概要花費我們很長的時間。幸好，目前有些 framework (Keras 、 PyTorch 、 TensorFlow...)提供機器學習的模型函數，而百度的飛槳平台也提供相關的函數

[筆記] 整理人工智慧 AI、機器學習 ML、深度學習 DL

- 7月 01, 2023

「人工智慧」是一個很熱門的話題，不過就技術而言它已經存在已久。最近，我非常專注地閱讀了百度的 Paddle 飛槳網站 https://www.paddlepaddle.org.cn/ 有關人工智慧技術的內容，我覺得它非常清楚地解釋了人工智慧、機器學習和深度學習之間的關係。因此，我特別把這些內容整理起來。從下圖一來解釋這三者的關係，人工智慧 AI 可以被視為應用於各個領域的一種技術，其需要依賴於機器學習 (ML：Machine Learning) 的方法。機器學習技術可以分為兩種主要形式，即早期的傳統學習技術和現代的深度學習技術 (DL：Deep Learning)。在早期的機器學習中，由於硬體運算效能有限且訊息數據難以大量取得，技術的發展側重於分析訊息的特徵。以我過去學習過的語音和影像技術為例，我們需要分析語音的發音方式，例如聲母、韻母、子音...等，並提取出聲音的特徵，還有從頻譜的角度來分析語音特性。之後，我們建立一個模型，例如隱藏式馬可夫鏈 (HMM)，以便進行語音的訓練和識別。過去，同樣的過程也被運用在影像處理方面，先解析影像訊號，分析影像特性並取得其特徵，再建立影像的模型。從上述描述可以看出，傳統的技術需要對這類型多媒體訊號的特性進行深入研究，不論是從時域（time domain）或頻譜（frequency domain）的角度來解析訊號的特徵。接著，根據這些特徵建立一套模型，並將有限的數據輸入到模型中，最終進行模型的訓練以獲得適合的結果。這個過程需要對訊息進行大量的研究和分析，並且受限於資源和數據的可用性。圖一：AI，ML，DL 的關係圖近年來，隨著物聯網和網路技術的進展，深度學習成為人工智慧的主要技術。儘管深度學習的演算核心是類神經網路，這並不是一個特別新穎的技術。然而，由於現在可以獲得各種海量數據，再加上運算晶片的功效大幅提升，深度學習的技術才逐漸被廣泛採用。整理上述的概念後，下圖二說明兩種機器學習的方法，上半部是傳統的機器學習，下半部是深度學習。上半圖，經過特徵工程獲取輸入訊號的特徵特性，再輸入到一個訓練後的模型，獲得輸出的結果。然而，現在演進到深度學習的技術，透過神經網路的訓練後，這樣的模型也可以達到傳統機器學習的結果。圖二：機器學習的演進圖 (取自百度 Padd