強(qiáng)化學(xué)習(xí):了解不同的機(jī)器學(xué)習(xí)技巧

強(qiáng)化學(xué)習(xí):了解不同的機(jī)器學(xué)習(xí)技巧

強(qiáng)化學(xué)習(xí)是監(jiān)督的還是無監(jiān)督的?雖然這個技術(shù)問題很重要,但讓我們把重點(diǎn)轉(zhuǎn)向商業(yè)視角。強(qiáng)化學(xué)習(xí)(RL)在改變各行業(yè)的決策過程和優(yōu)化戰(zhàn)略方面具有巨大的潛力。

計(jì)算機(jī)、智能手機(jī)和各種技術(shù)所產(chǎn)生的數(shù)據(jù)量之大可能令人生畏,特別是對于那些對其影響不確定的人而言。為了有效地利用這些數(shù)據(jù),研究人員和程序員經(jīng)常利用機(jī)器學(xué)習(xí)來增加用戶體驗(yàn)。

數(shù)據(jù)科學(xué)家每天都在使用復(fù)雜的方法,包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)。本文旨在簡潔地描述監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),并強(qiáng)調(diào)它們間的區(qū)別。

強(qiáng)化學(xué)習(xí)是監(jiān)督的還是無監(jiān)督的?

強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域開辟了自己的道路,與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)截然不同。但首先,讓我們先了解一下什么是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

什么是監(jiān)督學(xué)習(xí)?

監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),其中模型是在標(biāo)記數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)既包括輸入示例,也包括相應(yīng)的期望輸出(標(biāo)簽)。模型的目標(biāo)是學(xué)習(xí)輸入和輸出之間的關(guān)系,這樣它就可以準(zhǔn)確地預(yù)測新的、看不見的數(shù)據(jù)的輸出。

將其想象成一個學(xué)生跟著老師學(xué)習(xí)。標(biāo)記的數(shù)據(jù)集就像帶有解決方案的實(shí)踐問題。學(xué)生(模型)學(xué)習(xí)這些例子,教師(算法)指導(dǎo)學(xué)習(xí)過程。目標(biāo)是讓學(xué)生學(xué)會如何獨(dú)立解決類似的問題。

關(guān)鍵概念: 標(biāo)簽數(shù)據(jù):監(jiān)督學(xué)習(xí)的核心。每個數(shù)據(jù)點(diǎn)都有一個輸入(特性)及其相應(yīng)的正確輸出(標(biāo)簽). 培訓(xùn):模型被輸入標(biāo)記數(shù)據(jù)。它分析了輸入和輸出之間的模式和相關(guān)性。 學(xué)習(xí)功能:該模型開發(fā)了一個數(shù)學(xué)函數(shù),盡可能精確地將輸入映射到輸出中。 預(yù)測:一旦經(jīng)過培訓(xùn),該模型可以吸收新的投入并預(yù)測相應(yīng)的產(chǎn)出。

什么是無監(jiān)督學(xué)習(xí)?

無監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),其中模型是在未標(biāo)記的數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)只包括輸入,沒有相應(yīng)的目標(biāo)輸出。模型的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)本身中隱藏的模式、結(jié)構(gòu)或關(guān)系。

將其想象成一個孩子在沒有任何具體指示的情況下探索一個新環(huán)境。孩子們通過觀察模式、對相似的物體進(jìn)行分組和理解關(guān)系來學(xué)習(xí),而不需要任何人直接告訴其事物的名稱。

關(guān)鍵概念:

無標(biāo)簽數(shù)據(jù):無監(jiān)督學(xué)習(xí)沒有預(yù)先定義的答案來學(xué)習(xí)。 模式發(fā)現(xiàn):模型分析數(shù)據(jù)以找出相似性、差異性和潛在結(jié)構(gòu)。 沒有明確的指導(dǎo):沒有"老師"糾正模式。它通過自我發(fā)現(xiàn)學(xué)習(xí)。

什么是強(qiáng)化學(xué)習(xí)?

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí),其中代理人通過與環(huán)境交互的試錯來學(xué)習(xí)。代理嘗試不同的行為,根據(jù)其行為獲得獎勵或懲罰,并隨著時間的推移調(diào)整其策略以最大化總獎勵。

想象一下訓(xùn)練一只狗,但沒有明確告訴狗怎么坐。相反,當(dāng)它執(zhí)行導(dǎo)致坐著的動作時,給予它獎勵。隨著時間的推移,狗學(xué)會了把坐和獎勵聯(lián)系起來。

關(guān)鍵概念:

代理人:決策者,學(xué)習(xí)的實(shí)體。 環(huán)境:代理人與之相互作用的系統(tǒng)。 狀態(tài):代理人在其環(huán)境中的現(xiàn)狀。 行動:代理人在其環(huán)境中能做什么。 獎勵:積極或消極的反饋信號,代理人收到的行動。 策略:代理人使用的策略來決定在給定的狀態(tài)中采取什么行動。

總結(jié)

沒有任何一種"最佳"的機(jī)器學(xué)習(xí)技術(shù)能超越所有其他的。最佳技術(shù)取決于需求。

無監(jiān)督學(xué)習(xí)是探索數(shù)據(jù)集、發(fā)現(xiàn)隱藏模式或在沒有預(yù)定結(jié)果的情況下分組相似數(shù)據(jù)點(diǎn)的完美選擇。而,如果有帶有標(biāo)記示例的數(shù)據(jù)集(輸入數(shù)據(jù)及其相應(yīng)的正確輸出),則選擇有監(jiān)督的學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)對于以長期獎勵為重點(diǎn)的決策問題特別有用,如游戲或機(jī)器人。在強(qiáng)化學(xué)習(xí)中,代理人與環(huán)境交互,以獎勵或懲罰的形式獲得反饋,并學(xué)習(xí)隨著時間的推移使獎勵最大化的最佳策略。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-07-08
強(qiáng)化學(xué)習(xí):了解不同的機(jī)器學(xué)習(xí)技巧
強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域開辟了自己的道路,與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)截然不同。

長按掃碼 閱讀全文