圖像生成模型 —— 生成式 AI 的常用子集 —— 可以解析并理解書(shū)面語(yǔ)言,然后將文字轉(zhuǎn)換為幾乎任何風(fēng)格的圖像。
Black Forest Labs 的一系列新模型代表了圖像生成領(lǐng)域的前沿技術(shù) —— 現(xiàn)在可在 PC 和工作站上試用 —— 在 GeForce RTX 和 NVIDIA RTX GPU 上的運(yùn)行速度最快。
流暢的功能
FLUX.1 AI 是由 Black Forest Labs 開(kāi)發(fā)的文本生成圖像模型套件。這些模型基于 Diffusion Transformer(DiT)體系架構(gòu)而構(gòu)建,以便大參數(shù)量的模型保持高效運(yùn)行。Flux 模型在擁有 120 億個(gè)參數(shù)的模型上進(jìn)行訓(xùn)練,以生成高質(zhì)量圖像。
DiT 模型屬于高效的計(jì)算密集型模型 —— NVIDIA RTX GPU 對(duì)于處理這些新模型至關(guān)重要,其中最大規(guī)模的模型如果不進(jìn)行重大調(diào)整,將無(wú)法在非 RTX GPU 上運(yùn)行。Flux 模型現(xiàn)在支持 NVIDIA TensorRT 軟件開(kāi)發(fā)套件,該套件可將這些模型的性能提升高達(dá) 20%。用戶(hù)可以在 ComfyUI 中借助 TensorRT 試用 Flux 和其他模型。
提示:“一張雜志照片:在暴風(fēng)雪中,一只猴子在溫泉中沐浴,水面上飄著蒸汽。”
此圖片由 FLUX.1 生成。來(lái)源:NVIDIA
Flux 的優(yōu)勢(shì)
FLUX.1 在生成高質(zhì)量、多樣化的圖像方面表現(xiàn)卓越,其出色的指令遵循性意味著 AI 能夠準(zhǔn)確理解并執(zhí)行指令。提示依從性較高,意味著生成的圖像與文本提示描述的元素、風(fēng)格和情緒高度匹配。提示依從性較低會(huì)導(dǎo)致圖像可能部分或完全偏離給定的指令。
FLUX.1 以能夠精確渲染人體解剖結(jié)構(gòu)(包括手部和人臉等具有挑戰(zhàn)性的復(fù)雜特征)而著稱(chēng)。FLUX.1 還顯著改進(jìn)了在圖像中生成易讀文本的過(guò)程,解決了文本轉(zhuǎn)圖像模型的另一個(gè)常見(jiàn)挑戰(zhàn)。這使得 FLUX.1 模型非常適合需要精確文本表示的應(yīng)用,例如宣傳材料和書(shū)籍封面。
FLUX.AI 具有三種變體,可為用戶(hù)提供最適合其工作流的選擇,而不會(huì)犧牲質(zhì)量:
FLUX.1 pro:為企業(yè)用戶(hù)提供最高質(zhì)量的模型;可通過(guò)應(yīng)用編程接口訪(fǎng)問(wèn)。
FLUX.1 dev:FLUX.1 pro 的免費(fèi)精華版本,仍然具有較高質(zhì)量。
FLUX.1 schnell:運(yùn)行速度最快的模型,非常適合本地開(kāi)發(fā)和個(gè)人使用;具有寬松的 Apache 2.0 許可證。
dev 和 schnell 模型為開(kāi)源版本,Black Forest Labs 在流行平臺(tái) Hugging Face 上提供對(duì)其關(guān)鍵功能的訪(fǎng)問(wèn)。這一做法得到社區(qū)廣泛認(rèn)可。
得到社區(qū)廣泛認(rèn)可
自發(fā)布以來(lái),F(xiàn)lux 模型的 dev 和 schnell 變體已在 Hugging Face 上被下載 200 多萬(wàn)次。
FLUX.1 的強(qiáng)大功能受到用戶(hù)廣泛贊譽(yù),稱(chēng)其能夠生成具有非凡細(xì)節(jié)和逼真度、視覺(jué)效果令人驚艷的圖像,并且可以處理復(fù)雜的提示,而無(wú)需調(diào)整大量參數(shù)。
提示:“一張細(xì)節(jié)豐富的專(zhuān)業(yè)特寫(xiě)照片:一只變形孟加拉虎身穿白色無(wú)袖背心,戴著太陽(yáng)鏡,脖子上掛著耳機(jī),爪子放在舞臺(tái)上的唱盤(pán)上,在伊比沙島晚間的戶(hù)外電子舞曲音樂(lè)會(huì)上擔(dān)任 DJ;派對(duì)氣氛,少量煙霧與焦散光照。”
此圖片由 FLUX.1 生成。來(lái)源:NVIDIA
提示:“一張攝影品質(zhì)圖像:雨夜,繁華的城市街道上,一輛黃色出租車(chē)停在路邊,前燈亮著,照射在潮濕路面上。一位身著紅色外套的女性撐著一把亮綠色雨傘,看著她的智能手機(jī)。左側(cè)有一家咖啡店,霓虹燈標(biāo)志牌上面顯示著藍(lán)色字母‘Café Mocha’??Х鹊暄b著大窗戶(hù),從中可以看到人們?cè)谙硎茱嬃?。路燈照亮了該區(qū)域,在整個(gè)場(chǎng)景上投射出溫暖的光芒,而雨滴在空中產(chǎn)生了霧霾效果。背景中,一座高樓上的大型數(shù)字時(shí)鐘顯示時(shí)間為下午 8 點(diǎn) 45 分。”
此圖片由 FLUX.1 生成。來(lái)源:NVIDIA
此外,F(xiàn)LUX.1 還善于處理各種藝術(shù)風(fēng)格,并能夠快速高效地生成圖像,因此是完成個(gè)人和專(zhuān)業(yè)項(xiàng)目不可或缺的重要工具。
訪(fǎng)談
更多做行業(yè)賦能者 HID迎接數(shù)字化浪潮新機(jī)遇 破解新挑戰(zhàn)
今年3月份,全球可信身份解決方案提供商HID發(fā)布了最新的《安防行業(yè)現(xiàn)狀報(bào)告》(以下簡(jiǎn)稱(chēng)“報(bào)告”),該報(bào)告…
數(shù)字化浪潮下,安防廠(chǎng)商如何滿(mǎn)足行業(yè)客戶(hù)的定制化需求?
回顧近兩年,受疫情因素影響,包括安防在內(nèi)的諸多行業(yè)領(lǐng)域都遭受了來(lái)自市場(chǎng) “不確定性”因素的沖擊,市場(chǎng)…
博思高鄧紹昌:乘產(chǎn)品創(chuàng)新及客戶(hù)服務(wù)之舟,在市場(chǎng)變革中逆風(fēng)飛揚(yáng)
11月24日,由慧聰物聯(lián)網(wǎng)、慧聰安防網(wǎng)、慧聰電子網(wǎng)主辦的2022(第十九屆)中國(guó)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)暨品牌盛會(huì),在深…