要說最近AI火爆的細分領域,那就不得不提到AI音樂生成。
海外有「Suno」、「Udio」、「Stable Audio2.0」……國內目前只有昆侖萬維的「天工SkyMusic」,但以上每一個AI音樂生成應用都是實打實的可上手。
那么,同為AI音樂生成領域具代表性的產品,同樣主打幾分鐘內即可生成高質量的音頻內容,中外AI音樂生成模型究竟有何不同?哪些產品能力更被用戶所看重?
接下來,就讓我們以海外代表玩家「Suno」和國內代表玩家「天工SkyMusic」為對比,一探究竟,來一場實力對決吧!
首先讓我們同時打開「Suno」」和「天工SkyMusic」。
目前Suno只有網頁端產品使用入口,而「天工SkyMusic」則是在集成在手機APP端,這一點上來說,「天工SkyMusic」更適合國人的使用習慣。
先來說「Suno」,它的界面包括了Home、Create、Library、Ecplore等幾個次級頁面,Home相當于是「Suno」用戶作品的“展示柜”,收納了歡迎度較高的熱門作品,以及各種音樂風格的作品合集,比如布魯斯、說唱、古典等。點擊Create即可進入創作頁面。
而「天工SkyMusic」被收納在「天工APP」的板塊,同樣具備用戶作品展示、靈感指南等功能。相較而言,「天工SkyMusic」的界面更為簡潔,創作入口更為直接。
從操作層面,雖然都是AI音樂生成應用,但這兩款產品的生成邏輯有著一個極大不同。
「天工SkyMusic」讓用戶在曲庫中選擇歌曲或者是自己上傳歌曲作為參考;「Suno」則需要用戶用較為準確的樂理知識描述想要的音樂風格。
相較而言,「天工SkyMusic」對于即使沒有音樂背景的小白用戶,哪怕缺乏專業樂理、樂器等專業訓練,也不妨礙用戶“告訴”AI想要的是什么。
但在「Suno」的創作過程中,需要用戶用自然語言準確地輸入“提示詞”,包括設計音樂風格相關的關鍵詞描述,如: Pop、Folk、Acoustic,以及情緒氛圍相關的詞,如: Uplifting、Hopeful、Joyful……,這其實在用戶上手之時,就抬高了門檻,比如該如何描述類似《以父之名》曲風的音樂?
「天工SkyMusic」對沒有接受過專業音樂培訓的普通人來說更加友好。絕大部分普通人對音樂流派的了解程度不深,對曲風的把握也不夠準確,泛泛描述很難得到理想作品,找一首類似的音樂來做參考,能夠比語言描述更好地表達對作曲的需求。相比之下,「Suno」可能更適合對音樂感興趣的極客或者專業音樂人士來使用。
接下來,我們再來看看兩款AI音樂應用自帶的“AI作詞”功能測評。
讓我們以《洛陽鏟》為題,看看「Suno」和「天工SkyMusic」分別給出了怎樣的答卷?
整體來說,「天工SkyMusic」自動生成的歌詞更符合古風效果,而「Suno」自動生成的歌詞略顯生硬,缺少了歌詞應有的靈動與韻味。當然,讓一款海外應用“說”中文已經是難為TA了,這題算附加題,不計分。
人聲合成是能體驗AI音樂生成效果和音樂品質的維度。「天工SkyMusic」的AI人聲合成,能夠產生中文水平極高、發音清晰的歌聲,展現出卓越的音頻質量和逼真的演唱效果,已經達到業內SOTA水平!
在這方面,兩相對比,Suno的中文演唱水平就明顯差了很多,唱起中文歌來明顯有一種老外說中文那味兒。下面這首Suno生成的音樂作品,確實在中文發音上既不清晰也不準確。
【用戶用suno制作的中文歌】
值得一提的是,對于中文用戶來說,「天工SkyMusic」還具備一個驚喜的功能——方言歌的創作!中國是一個擁有豐富方言文化的國家,各地的方言都有其獨特的韻味和表達方式。通過提供「方言版」歌詞,并使用具有方言特色的歌曲作為參照,「天工SkyMusic」就能生成出具有濃郁地方特色的音樂作品。
以用戶生成的這兩首四川rap和粵語情歌為例,不僅展示了方言歌曲的創作可能性,也體現了「天工SkyMusic」在中文領域的優勢。四川rap的熱情和節奏感,粵語情歌的婉約和深情,都通「天工SkyMusic」得到了復刻!
經過實際上手后的深度體驗,相信中外AI音樂生成大模型大PK的勝負,已經有了明確的答案。
事實上,根據官方數據,在人聲和 BGM 音質、人聲自然度、發音可懂度等幾個指標上,「天工 SkyMusic 」的綜合性能都超越 「Suno V3」,成為新音樂 AIGC 的 SOTA 模型,讓中國的自研大模型技術第一次在 AIGC 領域領跑全球。
4000億參數,國內音樂AIGC性能
「天工SkyMusic」的各方面能力都能超過國外音樂大模型,背后的技術底氣來自哪里?
這要從多年前,昆侖萬維的AI布局說起。2016年公司就收購了StarMaker,負責整個產品的研發及運維工作,并以此開展AI音樂的研究及布局。
今年2月,昆侖萬維發布了天工2.0,已經遠超行業水準,令人驚嘆!如今,4月17發布的天工3.0可謂光速成長,其模型技術知識能力提升超過20%,數學、推理、代碼、文創等能力提升超過30%,相當于是一個“文武雙全”的博士!
在天工3.0推出前,市面上公認厲害的大模型Grok-1參數為3140億,天工3.0達到了驚人的4000億!相當于這個“博士”的大腦儲存了如此龐大的信息,并能以秒為單位進行處理。
天工3.0一經發布便成為全球大的開源MoE大模型之一。在MMBench等多項權威多模態測評結果中,“天工3.0”的表現已經超過了GPT-4V,領跑全球,給人們帶來全新顛覆式的人工智能體驗。
「天工SkyMusic」便是基于“天工3.0”基座開源大模型,不僅實現全球領先,還做到了AI音樂生成領域的“全球首家公開技術架構”。
「天工SkyMusic」采用音樂音頻領域類Sora模型架構,但為了得到更逼真、更專業的音樂效果,繞開了目前市面上主流的符號音樂生成技術路線,選擇了一條對技術要求更高,資源投入更大的大模型技術路線。
在無數次研發實驗算力算法投入下,「天工SkyMusic」成功攻克難關,探索出Encoder—DiT——Decoder的方案。
正是在AI領域數年深耕,才能厚積薄發。「天工SkyMusic」的發布引爆音樂產業,讓專業人士不再為高昂的音樂制作成本苦惱,讓熱愛音樂的普通人感受到音樂創作的樂趣,更是世界看到中國自研大模型在垂直領域的實力。
“AI會取代音樂人嗎?”這類問題大家也不用再擔心。未來,「天工SkyMusic」將成為中國音樂產業重要的創作工具之一,幫助音樂人創作更多精良作品,提高效率。昆侖萬維也將持續優化、迭代產業,推動中國AI及音樂產業蓬勃發展。
