中評社北京4月17日電/據澎湃新聞報道,亞馬遜公司終於宣布加入生成式AI競賽,但不是完全由自己構建人工智能模型,而是招募第三方在亞馬遜雲上托管模型。
當地時間4月13日,亞馬遜雲科技(AWS)推出Amazon Bedrock,這意味著通過API(應用程序編程接口)即可訪問來自AI21 Labs、Anthropic、Stability AI和亞馬遜的基礎模型,并由此構建生成式AI驅動的應用程序。
目前,Bedrock以“有限預覽”(limited preview)的形式提供,同時AWS還提供對Amazon Titan模型(由AWS在內部訓練的一系列基礎模型)的訪問。
亞馬遜在生成式AI市場的最有力舉措
根據Grand View Research的估計,Bedrock是亞馬遜迄今為止在生成式AI市場上最有力的舉措,到2030年該市場的價值可能接近1100億美元。
生成式AI是人工智能的一種,能够創造新內容和想法,包括對話、故事、圖像、視頻和音樂。與所有人工智能技術一樣,生成式AI的能力由機器學習模型提供。這些模型是基於大量數據進行預先訓練的大模型,通常被稱為基礎模型(Foundation Models)。
機器學習的最新進展(特別是基於Transformer的神經網絡架構的發明)直接帶來這一類模型的爆發式增長,這類模型通常包含數十億個參數或變量。2019年最大的預訓練模型是3.3億個參數。現在,最大的模型的參數超過5000億個,相當於幾年間增加了1600倍。
借助Bedrock,AWS客戶可以選擇通過API使用來自不同提供商(包括AWS)的AI模型。不過,目前還有諸多細節尚未公布,比如正式的定價。AWS強調,Bedrock的目標是構建“企業級”AI應用程序的大客戶,將其與現有的一些AI模型托管服務區分開來,例如競爭對手穀歌雲和微軟雲。<nextpage>
Bedrock上托管的第三方模型包括AI21 Labs的Jurassic-2系列,這是一個多語種大語言模型,可以生成西班牙語、法語、德語、葡萄牙語、意大利語和荷蘭語的文本;還有Anthropic開發的大語言模型Claude,它基於Anthropic對訓練誠實和負責任的AI(responsible AI)系統的大量研究,能够執行多種對話和文本處理任務;Stability AI開發的文生圖基礎模型Stable Diffusion也可通過Bedrock訪問,這是文生圖領域目前最流行的模型,能够生成圖像、藝術作品、商標和其它設計圖。
至於亞馬遜的定制產品——Titan模型目前包括兩種:文本生成模型和文本嵌入模型。文本生成模型類似於OpenAI的GPT-4(但在性能方面不一定相同),可以執行諸如撰寫博客文章和電子郵件、總結文檔以及從數據庫中提取信息等任務。
嵌入模型能够將文本輸入(字詞、短語甚至是大篇幅文章)翻譯成包含語義的數字表達(即embeddings嵌入編碼)。雖然這種大語言模型不生成文本,但對個性化推薦和搜索等應用程序卻大有好處,因為相對於匹配文字,對比編碼可以幫助模型反饋更相關、更符合情境的結果。亞馬遜雲科技生成式AI業務全球副總裁瓦西·菲羅明(Vasi Philomin)稱,亞馬遜網站的產品搜索就采用了類似的文本嵌入模型。
除此之外,AWS還宣布“AI編程助手”Amazon CodeWhisperer正式可用(去年推出了預覽版)。據悉,其在適用Python、Java、JavaScript、TypeScript和C#之外,新增支持Go、Kotlin、Rust、PHP和SQL等10種開發語言。開發者可以通過在VS Code、IntelliJ IDEA、Amazon Cloud9等集成開發環境中的Amazon Toolkit插件訪問CodeWhisperer。
亞馬遜雲科技數據庫、數據分析和機器學習業務全球副總裁斯瓦米·西瓦蘇布拉姆尼安(Swami Sivasubramanian)稱,在預覽期間曾進行了一項生產力測試。與未使用CodeWhisperer的參與者相比,使用CodeWhisperer的參與者完成任務的速度平均快57%,成功率高 27%。“這是開發人員生產力的巨大飛躍,而我們相信這才僅僅是個開始。”<nextpage>
不同的路:瞄准企業客戶
與穀歌和微軟已發布面向大衆的產品相比,亞馬遜雲服務顯然瞄准的是企業客戶。菲羅明在采訪中表示,“我們認為,每個應用程序都可以通過生成式AI進行重新構想。”
“現在整個世界都在爭先恐後。”AI文檔初創公司Coda的首席執行官兼AWS新AI產品的早期測試員石西爾·梅羅特(Shishir Mehrotr)表示,目前公司急於為這項新技術做好准備,這類似於從計算機到智能手機的轉變。
AWS正在開辟一條不同的道路,迄今為止沒有對其他人工智能公司或面向消費者的工具進行重大投資。AWS表示,希望為整合生成式AI功能的企業充當一個中立平台,也就是說不依賴於任何一家人工智能初創公司。
“我們認為,客戶將需要許多不同的生成式AI模型來滿足不同的目的,而且任何一種模型都不可能滿足所有客戶,甚至不可能滿足一個客戶的所有需求。”亞馬遜雲服務CEO亞當· 塞利普斯基(Adam Selipsky)說。
去年11月,Stability AI選擇AWS作為其首選雲提供商。今年3月,Hugging Face與AWS合作,將前者的文本生成模型引入AWS平台。最近,AWS為初創公司推出了一個生成式AI加速器,并表示將與英偉達合作構建“下一代”基礎設施來訓練AI模型。
法律問題隱憂
實際上,圍繞生成式AI還有許多未解決的法律問題。<nextpage>
微軟的生成式AI模型套件Azure OpenAI Service取得了成功,該套件將OpenAI模型與面向企業客戶的附加功能捆綁在一起。微軟在一篇博文中表示,截至3月,已有超過1000名客戶在使用Azure OpenAI服務。
但是,包括OpenAI和Stability AI在內的生成式AI技術公司,目前已面臨幾起訴訟。原告稱,這些公司未經許可使用受版權保護的數據來訓練生成模型。生成式AI模型通過對樣本圖像和文本進行“訓練”來“學習”創造藝術、代碼等,這些圖像和文本通常是從網絡上直接抓取的。此外,澳大利亞的一位市長因ChatGPT發布不准確言論威脅要對OpenAI提起誹謗訴訟。
實際上,對於亞馬遜的Titan FM系列模型,菲羅明也并沒有透露究竟是在哪些數據上進行訓練的。但他強調,Titan模型的建立是為了檢測和删除AWS客戶所提供數據中的“有害”內容,拒絕用戶輸入的“不恰當”內容,以及過濾包含仇恨言論、粗俗語言和暴力內容的輸出。可是,正如ChatGPT所展示的那樣,即使是非常好的過濾系統也可以被繞過。 |