大模型時代下的數據存儲與分析該如何處理?有沒有已經落地的應用實踐?
為探討這些問題,近日,阿里云聯合 Zilliz 和 Doris 舉辦了一場以《大模型時代下的數據存儲與分析》為主題的技術沙龍,其中,阿里云對象存儲 OSS 上擁有海量的非結構化數據,Milvus(Zilliz)作為全球最有影響力的開源向量數據庫項目 、Doris(飛輪科技)作為熱門的數據分析項目,都積累了豐富的非結構化數據處理和分析的最佳實踐。
沙龍現場,Zilliz 運營與生態(tài)負責人李晨進行了名為《向量數據庫:大模型的記憶體》的主題分享。
受大模型催化,向量數據庫方興未艾。與傳統(tǒng)數據庫相比,向量數據庫面向高維度向量,可以更好地處理圖像、音頻和視頻等非結構化數據。李晨主要介紹了向量數據庫的基本原理、應用場景和演進方向,以及 Zilliz 在此方向中的積累和心得。
他表示,向量數據庫是 AIGC 大模型的重要補充,是提供準確可靠、高度可擴展的長短期“記憶”的關鍵載體,其在 LLM領域的應用主要可以分為以下 6 類:管理私有數據和知識庫、為大模型提供實時數據更新、實現大模型的個性化和增強、提供智能體的記憶、保存大模型的處理結果、構建更復雜的AI系統(tǒng)。當然,這其中離不開一個新的程序開發(fā)應用范式—— CVP Stack。
在 CVP Stack 中,C是以 ChatGPT 為代表的大模型,它在 AI 程序中充當中央處理器的角色;V 代表 Vector Database,即以 Zilliz Cloud 和 Milvus 為代表的向量數據庫,為大模型提供知識存儲;P 代表 Prompt Engineering,各環(huán)節(jié)通過 Prompt 的方式進行交互。
相比單模型架構,CVP 架構在靈活性、可擴展性、實時性、成本四個維度都有明顯優(yōu)勢。最關鍵的原因是,在 CVP 架構中,領域知識可以用數據入庫的形式進行更新,而非重新訓練或微調模型,向量數據庫是該架構的重要組成部分。這其中一個典型的應用實踐就是 OSSChat(https://osschat.io/chat),它用于解決開源項目文檔冗長、不易查找等問題,目前已經支持幾十個主流的開源項目。
此外,為了進一步降低應用構建成本,提供標準化組件,Zilliz 已與全球頭部大模型生態(tài)完成了 C-V 間對接。2023 年 3 月,Zilliz 作為 OpenAI 首批向量數據庫合作伙伴,完成了 Milvus 與 Zilliz Cloud 插件化集成,作為官方推薦的向量數據庫插件提供給廣大應用開發(fā)者。同時,Zilliz 還與 LangChain、Cohere、LlamaIndex、Auto-GPT、BabyAGI 等熱門項目進行了深度集成。值得一提的是,Zilliz Cloud 已經正式在國內提供云服務,也在今年7月份官宣了和阿里云的合作,相信在雙方的努力配合下,一定可以讓用戶享受到更好的產品和服務。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )