不滿足只當「顯卡一哥」，NVIDIA 推出 Perfusion 文生圖模型

3,116 0 79

NVIDIA 做顯卡太出名，差點讓人忽略也是生成式 AI 巨頭。近日 NVIDIA 發表論文披露名為 Perfusion 的文生圖個人化學習模型。

Perfusion 是由 NVIDIA 和以色列特拉維夫大學合作研發，幫助自由創造產生更個人化更生動的圖片，更符合提示詞，且不易受原始訓練圖背景特徵影響。

圖形研究副總裁 Aaron Lefohn 曾描述 Perfusion 是「高度緊湊的技術……允許使用者將多種個人化元素（如特定泰迪熊和茶壺）組合至 AI 產生的單一視覺效果」。NVIDIA 使用「密鑰鎖定」新機制，簡單說就是把圖像產生模型注意力機制分成兩部分：位置和內容。位置決定畫出什麼物體，內容決定物體外觀模樣。

密鑰會固定位置，不讓物體隨意變化，如特定泰迪熊位置會與所有修改後泰迪熊一樣。內容允許物體外觀變化，如幫泰迪熊換衣服。Perfusion 文生圖時可選擇控制物體變化程度，較像原始物也能偏向使用者提示詞。產生結果的歷史紀錄還能組合成一張圖。

得益於密鑰機制的先進性，宣稱 Perfusion 產生的圖片品質與 Stable Diffusion v1.5 版不相上下，Perfusion 還更個人化，能快速學習處理新概念，無需重新訓練模型，是 Stable Diffusion 沒有的能力。Perfusion 控制力也更強，視覺品質和語義控制間能取得平衡，還可組合多個概念（如同時產生特定泰迪熊和特定茶壺）。

總體來說，Perfusion 於個人化學習和控制創新，使文生圖系統更容易自定義。可能很多人不知道，NVIDIA 其實生成式 AI 領域頗有建樹，圖像辨識、深度計算等產生任務都有開創性貢獻。

5 月創辦人黃仁勳大膽預測：「計算機業同時經歷兩種轉型：加速計算和生成式 AI。各公司競相將生成式 AI 塞入每個產品、服務和業務流程，價值兆美元的資料中心基礎設施將升級至加速計算。」

生成式 AI 訓練大規模神經網路，需高度複雜的算力，GPU 通用性較強，更適合大規模並行計算，且設計及製程成熟，正好是 NVIDIA 掌握 AI 大模型「命脈」的舒適圈。

從市占看來，NVIDIA 占 GPU 市場 84% 份額，研調機構 TrendForce 集邦諮詢數據顯示，如果以 NVIDIA A100 顯卡處理能力計算，執行 ChatGPT 需有 3 萬片 NVIDIA GPU，代表 NVIDIA 賺進超過 3 億美元。但 NVIDIA 現在不滿足只做顯卡，而是將「天賦異稟」資源於生成 AI 模型領域盡情釋放。

2018 年 NVIDIA 研究員率先提出生成式對抗網路 StyleGAN，是第一個高品質產生人臉的 GAN 模型，時隔一年，NVIDIA 發表第一個輸入語義就能產生逼真圖片的模型。類似「第一個」還有很多，現在 Perfusion 便是 NVIDIA 最新生成式 AI 成果。

Perfusion 一方面繼續展示 NVIDIA 生成式 AI 的技術力，建立 NVIDIA 領導力和影響力，另一方面也回應業界和學術界需求，將來整合至 NVIDIA 產品和服務。NVIDIA 目前只發表論文，程式碼等也很快就會公開，屆時文生圖 AI 模型會有更多選擇。