Midjourney V5 太炸裂，AI 繪畫再無 Bug？「有圖有真相」時代徹底過去

最新AI资讯1年前 (2023)发布 Aibot114

754 0 809

Midjourney V5 太炸裂，AI 繪畫再無 Bug？「有圖有真相」時代徹底過去

幾個月來以 ChatGPT 為首的聊天機器人攪得科技界滿城風雨，大眾忙著跟各家 AI 聊天，叫它們寫信、寫程式碼、寫詩。當語言模型大跨步前進，生成式 AI（AIGC）另一個重要分支──繪圖，也完全沒閒著。

去年拿下藝術比賽大獎而聲名大噪的Midjourney，近期熱度堪比OpenAI。Midjourney V4去年底幾乎和ChatGPT同期上線，GPT-4推出後，Midjourney也於3月16日飛速推出第五版，此次更新堪稱「炸裂」。

一週來各種Midjourney產生神圖層出不窮，中國足球奪冠、川普插秧、教皇做DJ、異形下凡……只要敢想AI就敢畫，且隨便拿一張都能以假亂真。但可能AI繪圖太真實，引起太多爭議，且太多新用戶湧入導致伺服器不堪重負，3月28日Midjourney宣布關閉免費帳號。

另一方面，大眾瘋狂追星同時，另一些人嘗試把ChatGPT和Midjourney結合，人類構思、AI執行的「人機合作」作品逐漸顯露商業化輪廓。

當圖片進化到照片：AI創造的平行世界

愛因斯坦沒有去實驗室，而是頂著代表性鳥窩頭在音樂節狂歡。

馬斯克沒有在21世紀製造火箭和電動車，而是穿越到蘇聯工廠，當了真正的「鋼鐵人」（工人）。

這種世界怎麼樣？以上無比真實的照片，不是誰用大量時間PS，而是很多普通人動動手指頭、打幾個關鍵字，人工智慧十幾秒內就自動產生的。

以假亂真世界的幕後推手就是Midjourney AI產生圖片工具，在AIGC繪圖領域，MidJourney是比OpenAI還神奇的存在。Midjourney沒有任何巨頭重金支持，為自籌資金的獨立研究實驗室，發起人是兩次拒絕蘋果收購的Leap Motion創辦人David Holz，全職員工11人。這樣的超小型團隊，卻是AI繪圖領域最炙手可熱的明星，甚至將OpenAI DALL‧E、Stable Diffusion、NVIDIA GauGAN2等都甩在身後。

比肩GPT的更新速度，驚歎和爭議相繼到來

Midjourney更新速度相較OpenAI有過之而無不及。去年3月第一版上線，4月火速更新第二版，接著7月上線Open Beta V3版本開放大眾，之後以獨特藝術性風格吸引眾多用戶，最知名就是下面人類給提示詞、AI創作，與人類藝術家同台比賽後奪得冠軍的油畫。

▲ Midjourney產生的作品〈Théâtre d′Opéra Spatial〉。（Source：Jason M. Allen / Midjourney, CC0, via Wikimedia Commons）

Midjourney紅了以後也沒有停下腳步，11月又推出第四版，增加更多風格；接著3月Midjourney V5版登場。此次V5更新之所以又引發大量關注，主要是解決一個技術難題和完成跨越性突破。

技術難題指的是「手指」。

要AI畫人，手是看起來簡單卻出奇複雜的任務。AI訓練圖庫手往往都不是重點，人們握手、牽手、鼓掌等不同狀態手都形態各異，很難形成標準模版，造成AI學習難度激增。即使對人類來說，畫手也是困難點之一。手的幾何形狀複雜，並沒有標準線條或形狀，關節皺紋和褶皺、手掌陰影等細節非常多，且每人手都長不一樣，獨一無二，無法套用樣本。

因此正確並精細畫手對所有AI工具都很困難，Midjourney V5之前，業界AI繪畫工具都無法畫好。但Midjourney V5完美解決了問題。不僅告別六指或畸形，還能結合人物特點畫出不同狀態和年齡的手部細節，就連光影下的手指紋路也完美呈現。

（Source：mpost）

除了克服手指難題，Midjourney V5跨越性突破是產生照片級圖片，還是攝影大師拍的。V5之前，Midjourney繪圖總體以卡通或超現實風格為主，但V5版能支援真實、抽象、油畫等更多風格，解析度比上一版提高2倍。此次寫實風格上線，直接到很多攝影師感嘆「攝影學不存在了」的地步。如「1990年代走在街上的模特兒」主題，Midjourney完美畫出真假難辨的照片。

▲ Twitter網友Nick St. Pierre的時尚服裝系列。（Source：左上、右上、下圖）

以「發生颶風的新聞報導」為主題，無中生有還原災難現場等。

以上範例可看出，Midjourney寫實圖片並不限某種固定風格，而會根據描述場景和想要風格智慧化調整色調、畫素、鏡頭語言等。最近Midjourney很多圖片，甚至達到肉眼無法辨別真偽的程度。真有媒體把川普被捕圖當成真實照片，意外寫成假新聞。此外，Midjourney提示詞審核不嚴格，故有產生大量有害照片的風險。Midjourney也在加強AI產成內容的監管和審核。

如果從技術角度看，Midjourney進步度讓人驚豔讚歎。但因照片太真實和新用戶太多，3月28日Midjourney宣布關閉免費帳號。分析認為，此舉也是為了防止更多離譜「照片」出現，擾亂現實世界和散布有害訊息。

ChatGPT＋Midjourney強強聯手，AI作品走向商業化應用

MidJourney仍經過Discord使用，方法還是很簡單，輸入文字和參數描述即可。還支援用戶上傳圖片請AI修改。完整Midjourney「咒語」示範如下：

A man in futuristic armor with cyberpunk details（想要圖片的文字描述，可增加更多細節），shot on Canon R6 with 50mm f1.2（風格描述，可要求什麼設備拍攝、哪位知名藝術家或攝影師風格），–v 5（使用第五版技術）–ar 4:6（畫面比例，V5版可自定義任何比例），–iw 1（輸入參考圖片的權重佔比）

雖然咒語構成不複雜，但很多只有模糊想法的普通用戶要讓Midjourney畫出自己想要的圖片仍很困難，於是ChatGPT也來參一腳了。

ChatGPT能有什麼作用？可先模糊描述構想，讓ChatGPT拓展成細節較多的畫面描述，接著叫它提出關鍵詞。然後將Midjourney提示語法構成告訴ChatGPT，再幾次訓練讓ChatGPT記住如何透過關鍵詞創建Midjourney命令語法。之後只需複製ChatGPT寫好的指令，貼到Midjourney輸入框即可產生圖片，如果不滿意還可讓ChatGPT再修改提示詞。

已有很多人嘗試將ChatGPT和Midjourney結合結果用於工作，如電商不再需要花大錢找攝影師、美術設計師，只需將產品圖片和提示詞餵給AI工具，就能產生商業大片。

甚至也不用找模特兒拍照了，直接用AI產生就行。還有人用在室內設計，做網站、產生宣傳圖等。可預見的是，ChatGPT和Midjourney合作可能僅是AI商業化應用的開端。

隨著AI技術快速發展，各種工具出現讓AI應用範圍等比指數擴大。設計、電商、廣告、遊戲、影視等各領域都湧現許多例子，娛樂性大大增強同時，全新機遇也打開了。