人妻系列影片无码区,亚洲人成色777777老人头,中文字幕乱码人妻综合二区三区

日前，紐約時報的一篇報道稱，人工智能公司 OpenAI為收集高質量訓練數(shù)據(jù)而開發(fā)了一個語音轉錄模型Whisper。該模型主要用于轉錄 OpenAI 獲取的超過 100 萬小時的 YouTube 視頻，也就是將 YouTube 視頻中的音頻內容轉錄文字，然后再拿去訓練 GPT-4。這個項目得到OpenAI 總裁 Greg Brockman的支持，甚至于Greg Brockman還親自參與了視頻的收集工作。

雖然OpenAI 認為這是對數(shù)據(jù)的合理利用，但谷歌顯然并不這么認為，并公開稱：谷歌會采取技術和法律措施來防止此類未經授權的使用。

在人工智能領域，數(shù)據(jù)是構建智能模型的基石。沒有高質量的數(shù)據(jù)，AI的發(fā)展就會受到嚴重限制。怎么合法獲取高質量數(shù)據(jù)？可能有望在OpenAI和谷歌的紛爭中給業(yè)界指明一條更為明確的道路。

AI公司為了提升模型的性能，往往需要大量的數(shù)據(jù)作為訓練材料。然而，這些數(shù)據(jù)往往受到版權法的保護，未經授權的使用可能會觸犯法律。這不僅對AI公司構成挑戰(zhàn)，也對內容創(chuàng)作者的權利保護提出了問題。

目前OpenAI的訓練數(shù)據(jù)獲取大多是來自以下幾方面：

一是互聯(lián)網(wǎng)內容。OpenAI從互聯(lián)網(wǎng)上抓取大量的網(wǎng)頁內容，包括文本、圖片、視頻等多種形式的數(shù)據(jù)。這些數(shù)據(jù)不僅用于訓練自然語言處理模型，如GPT系列，還可能用于圖像識別、多模態(tài)模型等其他類型的AI模型。

二是圖書資料。OpenAI還利用大量的圖書資料作為訓練數(shù)據(jù)。這些書籍內容涵蓋了各種領域和主題，有助于模型更好地理解長篇、結構化和正式英語。

三是學術論文。為了提升模型在科學和技術領域的理解能力，OpenAI還收集了大量的學術論文作為訓練數(shù)據(jù)。

四是社交媒體數(shù)據(jù)。隨著社交媒體的發(fā)展，OpenAI也開始與各大社交媒體合作，探索利用社交媒體上的公共信息來訓練模型。這些數(shù)據(jù)包括用戶發(fā)布的文本、圖片、視頻等，有助于模型更好地理解人類的語言和行為。

五是特定領域數(shù)據(jù)。針對特定任務或領域，OpenAI還可能收集特定領域的數(shù)據(jù)進行訓練。例如，對于醫(yī)療領域的模型，可能需要收集醫(yī)學文獻、病例報告等數(shù)據(jù)；對于金融領域的模型，可能需要收集市場數(shù)據(jù)、財務報告等。

這些內容不僅OpenAI在用，其他無數(shù)AI公司也在用這些內容進行人工智能的訓練，要保證OpenAI的領先性，就必須為其AI模型加入更加豐富的高質量訓練數(shù)據(jù)。這是OpenAI轉錄YouTube視頻進行訓練的關鍵所在。

2020年初，約翰霍普金斯大學的理論物理學家（現(xiàn)Anthropic首席科學官）Jared Kaplan發(fā)布了一篇論文，明確表示訓練大語言模型用的數(shù)據(jù)越多，表現(xiàn)就會越好。自那以后，“規(guī)模就是一切”成為了人工智能行業(yè)的信條。

研究機構Epoch直白地表示，現(xiàn)在科技公司使用數(shù)據(jù)的速度已經超過數(shù)據(jù)生產的速度，這些公司最快會在2026年就耗盡互聯(lián)網(wǎng)上的高質量數(shù)據(jù)。

高質量數(shù)據(jù)已經成為AI公司發(fā)展壯大的“石油”，在競爭的壓力下，讓它們對石油的獲取變得更為無所顧忌。對YouTube視頻的轉錄存在法律爭議，OpenAI是知道的，但對數(shù)據(jù)的貪婪還是讓他們義無反顧的堅信這是對數(shù)據(jù)的合理使用。

AI公司要發(fā)展，獲取訓練數(shù)據(jù)要合法合規(guī)。一方面，可以通過與內容提供商建立合作關系，獲取合法授權的數(shù)據(jù)。另一方面，AI公司也可以考慮自行生成合成數(shù)據(jù)，以滿足訓練需求。這不僅能夠避免法律風險，還能夠確保數(shù)據(jù)的多樣性和質量。

AI的發(fā)展不僅僅是技術問題，更是社會問題。AI技術的應用需要在尊重版權、保護隱私的前提下進行。只有這樣，AI技術才能夠得到健康、可持續(xù)的發(fā)展。

AI的盡頭是內容，但內容的獲取必須建立在合法合規(guī)的基礎之上。AI公司、內容創(chuàng)作者、法律機構等各方需要共同努力，找到平衡技術發(fā)展與法律倫理的解決方案，以確保AI技術能夠造福人類社會，而不是成為爭議的焦點。

免責聲明：此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權歸作者所有，且僅代表作者個人觀點，與極客網(wǎng)無關。文章僅供讀者參考，并請自行核實相關內容。投訴郵箱：editor@fromgeek.com。

免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

OpenAI和谷歌再起紛爭：AI的盡頭是內容

下一篇