Midjourney poprvé poskytuje konzistentní osobnosti pro veřejné obrázky AI

Připojte se k Leaders v Bostonu 27. března a užijte si exkluzivní noc networkingu, nápadů a konverzací. Zde si vyžádejte pozvánku.

Slavná služba generování obrazu umělé inteligence Uprostřed letu Zavedl jednu ze svých nejžádanějších funkcí: schopnost konzistentně znovu vytvářet postavy v nových obrázcích.

Přirozeně to byla dosud hlavní překážka pro generátory obrázků AI.

Je to proto, že většina generátorů obrázků AI spoléhá na „Difúzní modely“, nástroje podobné nebo založené na algoritmu generování obrázků s otevřeným zdrojovým kódem Stability AI Stable Diffusion, který funguje zhruba tak, že vezme text zadaný uživatelem a snaží se poskládat pixel po pixelu obrázek, který odpovídá tomuto popisu, jak jsme se naučili z podobných experimentů s obrázky a textovými značkami ve skupině Obrovská (a kontroverzní) trénovací data obsahující miliony obrázků vytvořených lidmi.

Proč jsou konzistentní osobnosti tak silné – a nepolapitelné – pro generativní AI

Nicméně, stejně jako u velkých textových jazykových modelů (LLM), jako je ChatGPT od OpenAI nebo nový Command-R od Cohere, problémem všech generativních aplikací AI je nekonzistence odpovědí: AI generuje něco nového pro každou jednotlivou výzvu, která je do ní vložena. , i když se tvrzení opakuje nebo jsou použita některá ze stejných klíčových slov.

VB událost

Prohlídka dopadu umělé inteligence – Boston

Těšíme se na další zastávku na AI Impact Tour v Bostonu 27. března. Tato exkluzivní, pouze sponzorovaná událost ve spolupráci se společností Microsoft bude zahrnovat diskuse o osvědčených postupech pro integraci dat v roce 2024 a dále. Kapacita je omezená, vyžádejte si proto pozvánku ještě dnes.

Požádejte o pozvání

To je skvělé pro vytváření zcela nových částí obsahu – v případě Midjourney obrázků. Ale co když točíte film, román, grafický román, komiks nebo jiné vizuální médium, které se vám líbí Stejný Postava nebo postavy, kterými se chcete pohybovat a objevovat se v různých scénách a prostředích, s různými výrazy obličeje a rekvizitami?

READ Apple přechází na postkvantovou kryptografii pro zabezpečení iMessage v budoucnosti v iOS 17.4

Tento přesný scénář, který je obvykle nezbytný pro narativní kontinuitu, bylo velmi obtížné dosáhnout pomocí generativní umělé inteligence – až dosud. Ale Midjourney nyní na tomto problému pracuje a zavádí novou značku „–cref“ (zkratka pro „odkaz na postavu“), kterou mohou uživatelé přidat na konec svých textových výzev v Midjourney Discord a pokusí se porovnat tvář postavy. Vlastnosti, typ postavy a dokonce i oblečení z adresy URL, kterou uživatel vloží do dalšího zmíněného tagu.

Jak se tato funkce vyvíjí a zdokonaluje, mohla by Midjourney povýšit na profesionálnější nástroj.

Jak používat novou konzistentní osobnostní funkci Midjourney

Značka funguje nejlépe s dříve vytvořenými obrázky Midjourney. Například pracovním postupem uživatele by tedy bylo vytvořit nebo načíst adresu URL dříve vygenerovaného znaku.

Začněme od nuly a řekněme, že vytváříme novou postavu s touto výzvou: „Plohlavý, svalnatý muž s korálkem a páskou přes oko.“

Upgradujeme obrázek, který se nám nejvíce líbí, a poté na něj se stisknutou klávesou Ctrl na serveru Midjourney Discord najdeme možnost „Kopírovat odkaz“.

Dále můžeme napsat novou výzvu do „Noste bílý smoking, když stojíte ve vile-cref“. [URL]“ a vložte adresu URL obrázku, který jsme právě vytvořili, a Midjourney se pokusí vytvořit stejnou postavu jako předtím v nově zadaném nastavení.

Jak uvidíte, výsledky zdaleka neodpovídají původnímu číslu (nebo dokonce našemu původnímu tvrzení), ale rozhodně jsou povzbudivé.

Kromě toho může uživatel do určité míry ovládat „váhu“ toho, jak blízko je nový obrázek vytvořen k původnímu znaku, použitím příznaku „-cw“ následovaného číslem od 1 do 100 na konec nové výzvy ( po „-cref [URL]“string, takhle:“-cref [URL] – CW 100.“ Čím nižší je číslo „CW“, tím větší je kontrast ve výsledném obrázku. Čím vyšší je číslo „CW“, tím více se výsledný nový obrázek řídí původní referencí.

READ Apple M1 Mac Mini již může být opraven

Jak můžete vidět v našem příkladu, zadání „cw 8“ velmi nízko ve skutečnosti vrátilo to, co jsme chtěli: bílý smoking. I když teď odstranil náš znakový pásek přes oko.

No, není nic, co by „jiná oblast“ nemohla opravit – že?

No, páska přes oko byla nalepena na špatné oko… ale dostali jsme se tam!

Můžete také spojit více znaků do jednoho pomocí dvou značek „–cref“ spolu s jejich příslušnými adresami URL.

Tato funkce byla spuštěna dříve dnes večer, ale umělci a tvůrci ji testují již nyní. Zkuste to sami, pokud máte Midjourney. A přečtěte si celou poznámku zakladatele Davida Holze k tématu níže:

Ahoj @všichni tady, dnes testujeme novou funkci Reference znaků, je to podobná funkci Reference vzoru, ale místo toho, aby odpovídala referenčnímu vzoru, se snaží, aby postava odpovídala obrázku Reference znaků.

Jak to funguje

Napsal --cref URL Poté, co budete vyzváni k zadání adresy URL vašeho profilového obrázku
Můžeš použít --cw Chcete-li upravit „sílu“ reference od 100 do 0
Síla 100 (--cw 100) Výchozí a používá obličej, vlasy a oblečení
(silně 0)--cw 0) se zaměří pouze na obličej (vhodné pro převlékání/vlasy atd.)

K čemu je to určeno

Tato funkce funguje nejlépe při použití postav vytvořených z obrázků Midjourney. Není určeno pro skutečné lidi/obrázky (a pravděpodobně je zkreslí, jako to dělají běžné výzvy k obrázkům)
Cref funguje podobně jako běžné obrázkové výzvy kromě toho, že se „zaměřuje“ na charakterové vlastnosti
Přesnost této techniky je omezená, nebude přesně kopírovat dolíčky/pihy/nebo loga košile.
Cref pracuje s běžnými modely Niji a MJ a lze je také kombinovat --sref

Pokročilé možnosti

Ke smíchání informací/znaků z více obrázků, jako je tento, můžete použít více než jednu adresu URL --cref URL1 URL2 (Toto je podobné výzvám pro více obrázků nebo stylu)

Jak to funguje na alpha webu?

Přetáhněte nebo vložte obrázek do panelu vizualizace, kde nyní obsahuje tři ikony. Určete tyto skupiny, zda se jedná o obrazový vektor, odkaz na styl nebo odkaz na znak. Shift+Vyberte možnost pro použití obrázku pro více kategorií

Pamatujte, že ačkoli je MJ V6 ve fázi alfa, další funkce se mohou náhle změnit, ale oficiální beta verze V6 bude brzy k dispozici. Rádi bychom se podělili o názory všech na ⁠Nápady a funkce a doufáme, že se vám toto rané vydání bude líbit a doufáme, že vám pomůže při hraní při vytváření příběhů a světů

Poslání VentureBeat Má to být digitální náměstí pro techničtí činitelé s rozhodovací pravomocí, aby získali znalosti o transformačních a transakčních podnikových technologiích. Objevte naše shrnutí.

READ Obnovení stavu systému PS5: Sony Direct se vyprodalo za 28 minut - zde je čas, kdy si jej koupit další