強(qiáng)化學(xué)習(xí):了解不同的機(jī)器學(xué)習(xí)技巧
強(qiáng)化學(xué)習(xí)是監(jiān)督的還是無監(jiān)督的?雖然這個技術(shù)問題很重要,但讓我們把重點(diǎn)轉(zhuǎn)向商業(yè)視角。強(qiáng)化學(xué)習(xí)(RL)在改變各行業(yè)的決策過程和優(yōu)化戰(zhàn)略方面具有巨大的潛力。
計(jì)算機(jī)、智能手機(jī)和各種技術(shù)所產(chǎn)生的數(shù)據(jù)量之大可能令人生畏,特別是對于那些對其影響不確定的人而言。為了有效地利用這些數(shù)據(jù),研究人員和程序員經(jīng)常利用機(jī)器學(xué)習(xí)來增加用戶體驗(yàn)。
數(shù)據(jù)科學(xué)家每天都在使用復(fù)雜的方法,包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)。本文旨在簡潔地描述監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),并強(qiáng)調(diào)它們間的區(qū)別。
強(qiáng)化學(xué)習(xí)是監(jiān)督的還是無監(jiān)督的?
強(qiáng)化學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域開辟了自己的道路,與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)截然不同。但首先,讓我們先了解一下什么是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
什么是監(jiān)督學(xué)習(xí)?
監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),其中模型是在標(biāo)記數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)既包括輸入示例,也包括相應(yīng)的期望輸出(標(biāo)簽)。模型的目標(biāo)是學(xué)習(xí)輸入和輸出之間的關(guān)系,這樣它就可以準(zhǔn)確地預(yù)測新的、看不見的數(shù)據(jù)的輸出。
將其想象成一個學(xué)生跟著老師學(xué)習(xí)。標(biāo)記的數(shù)據(jù)集就像帶有解決方案的實(shí)踐問題。學(xué)生(模型)學(xué)習(xí)這些例子,教師(算法)指導(dǎo)學(xué)習(xí)過程。目標(biāo)是讓學(xué)生學(xué)會如何獨(dú)立解決類似的問題。
關(guān)鍵概念: 標(biāo)簽數(shù)據(jù):監(jiān)督學(xué)習(xí)的核心。每個數(shù)據(jù)點(diǎn)都有一個輸入(特性)及其相應(yīng)的正確輸出(標(biāo)簽). 培訓(xùn):模型被輸入標(biāo)記數(shù)據(jù)。它分析了輸入和輸出之間的模式和相關(guān)性。 學(xué)習(xí)功能:該模型開發(fā)了一個數(shù)學(xué)函數(shù),盡可能精確地將輸入映射到輸出中。 預(yù)測:一旦經(jīng)過培訓(xùn),該模型可以吸收新的投入并預(yù)測相應(yīng)的產(chǎn)出。
什么是無監(jiān)督學(xué)習(xí)?
無監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),其中模型是在未標(biāo)記的數(shù)據(jù)集上訓(xùn)練的。這意味著數(shù)據(jù)只包括輸入,沒有相應(yīng)的目標(biāo)輸出。模型的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)本身中隱藏的模式、結(jié)構(gòu)或關(guān)系。
將其想象成一個孩子在沒有任何具體指示的情況下探索一個新環(huán)境。孩子們通過觀察模式、對相似的物體進(jìn)行分組和理解關(guān)系來學(xué)習(xí),而不需要任何人直接告訴其事物的名稱。
關(guān)鍵概念:
無標(biāo)簽數(shù)據(jù):無監(jiān)督學(xué)習(xí)沒有預(yù)先定義的答案來學(xué)習(xí)。 模式發(fā)現(xiàn):模型分析數(shù)據(jù)以找出相似性、差異性和潛在結(jié)構(gòu)。 沒有明確的指導(dǎo):沒有"老師"糾正模式。它通過自我發(fā)現(xiàn)學(xué)習(xí)。什么是強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí),其中代理人通過與環(huán)境交互的試錯來學(xué)習(xí)。代理嘗試不同的行為,根據(jù)其行為獲得獎勵或懲罰,并隨著時間的推移調(diào)整其策略以最大化總獎勵。
想象一下訓(xùn)練一只狗,但沒有明確告訴狗怎么坐。相反,當(dāng)它執(zhí)行導(dǎo)致坐著的動作時,給予它獎勵。隨著時間的推移,狗學(xué)會了把坐和獎勵聯(lián)系起來。
關(guān)鍵概念:
代理人:決策者,學(xué)習(xí)的實(shí)體。 環(huán)境:代理人與之相互作用的系統(tǒng)。 狀態(tài):代理人在其環(huán)境中的現(xiàn)狀。 行動:代理人在其環(huán)境中能做什么。 獎勵:積極或消極的反饋信號,代理人收到的行動。 策略:代理人使用的策略來決定在給定的狀態(tài)中采取什么行動。總結(jié)
沒有任何一種"最佳"的機(jī)器學(xué)習(xí)技術(shù)能超越所有其他的。最佳技術(shù)取決于需求。
無監(jiān)督學(xué)習(xí)是探索數(shù)據(jù)集、發(fā)現(xiàn)隱藏模式或在沒有預(yù)定結(jié)果的情況下分組相似數(shù)據(jù)點(diǎn)的完美選擇。而,如果有帶有標(biāo)記示例的數(shù)據(jù)集(輸入數(shù)據(jù)及其相應(yīng)的正確輸出),則選擇有監(jiān)督的學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)對于以長期獎勵為重點(diǎn)的決策問題特別有用,如游戲或機(jī)器人。在強(qiáng)化學(xué)習(xí)中,代理人與環(huán)境交互,以獎勵或懲罰的形式獲得反饋,并學(xué)習(xí)隨著時間的推移使獎勵最大化的最佳策略。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 國家發(fā)改委成立低空經(jīng)濟(jì)發(fā)展司
- 什么是人工智能網(wǎng)絡(luò)? | 智能百科
- 工信部:2025年推進(jìn)工業(yè)5G獨(dú)立專網(wǎng)建設(shè)
- 人工智能如何改變?nèi)蛑悄苁謾C(jī)市場
- 企業(yè)網(wǎng)絡(luò)安全挑戰(zhàn)頻出?Fortinet 給出破解之法
- 2025年生成式人工智能將如何影響眾行業(yè)
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 千家早報|馬斯克預(yù)測:人工智能或?qū)⒊絾蝹€人類;鴻蒙生態(tài)(武漢)創(chuàng)新中心啟用,推動鴻蒙軟硬件在武漢首試首用——2024年12月27日
- 中移建設(shè)被拉入軍采“黑名單”
- 大理移動因違規(guī)套現(xiàn)等問題,擬被列入軍采失信名單
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。