Vznikající schopnosti velkých jazykových modelů jsou přeludem

Originál na Tento příběh Vystupoval v Časopis Quanta.

Před dvěma lety v rámci projektu tzv Nad rámec standardní imitace hry, neboli BIG-bench, 450 výzkumníků sestavilo seznam 204 úloh určených k testování schopností velkých jazykových modelů, které pohánějí chatboty jako ChatGPT. U většiny úloh se výkon zlepšoval předvídatelně a plynule s škálováním modelů – čím větší model, tím lépe. Ale u jiných misí nebyl skok ve schopnostech tak hladký. Výkon se chvíli držel blízko nuly, pak výkon vyskočil. Jiné studie zjistily podobné skoky ve schopnostech.

Autoři to popsali jako „průlomové“ chování. Jiní výzkumníci to přirovnali k přechodu ve fyzice, například když kapalná voda zamrzne a změní se v led. v papír Zveřejněno v srpnu 2022 vědci poznamenali, že toto chování je nejen překvapivé, ale nepředvídatelné a že by mělo vést rozvíjející se rozhovory o bezpečnosti, potenciálu a rizicích umělé inteligence. Nazývali schopnostinouzový“, slovo, které popisuje kolektivní chování, které se objeví pouze tehdy, když systém dosáhne vysoké úrovně složitosti.

Ale věci nemusí být tak jednoduché. Nový papír Trio výzkumníků ze Stanfordské univerzity tvrdí, že náhlý výskyt těchto schopností je pouze výsledkem způsobu, jakým výzkumníci měří výkon MBA. Tvrdí, že schopnosti nejsou ani neočekávané, ani překvapivé. „Proces přechodu je mnohem předvídatelnější, než mu lidé připisují uznání,“ řekl. Sanmi Koijo, počítačový vědec ze Stanfordské univerzity a hlavní autor článku. „Silná tvrzení o emergenci mají co do činění s tím, jak se je rozhodneme měřit, stejně jako s tím, co dělají modely.“

Teprve nyní vidíme a studujeme toto chování kvůli tomu, jak velké se tyto modely staly. Velké jazykové modely jsou trénovány pomocí masivní analýzy Textové datové sady– Slova z online zdrojů včetně knih, vyhledávání na webu a Wikipedie – a najděte spojení mezi slovy, která se často vyskytují společně. Velikost se měří pomocí parametrů, což je podobné téměř všem způsobům, kterými lze slova spojovat. Čím více parametrů je, tím více spojení může LLM najít. GPT-2 má 1,5 miliardy parametrů, zatímco GPT-3.5, LLM, který pohání ChatGPT, využívá 350 miliard. GPT-4, který debutoval v březnu 2023 a nyní tvoří základ Microsoft Copilot, se údajně používá za 1,75 bilionu dolarů.

READ Země vypadá úžasně při plném pohledu z družice NOAA-21 | obrázky

Tento rychlý růst vedl k úžasnému nárůstu výkonu a efektivity a nikdo nezpochybňuje, že držitelé dostatečně velkých magisterských titulů mohou dokončit úkoly, které menší modely nemohou, včetně úkolů, pro které nejsou vyškoleni. Stanfordské trio, které tento vzestup odmítlo jako „přelud“, si uvědomuje, že LLM se stávají efektivnějšími, když expandují; V realitě, Další složitost Větší modely by měly umožnit zlepšení v řešení složitějších a různorodých problémů. Argumentují však tím, že zda se toto zlepšení jeví jako hladké a předvídatelné nebo zubaté a strmé, vyplývá spíše z výběru míry – nebo dokonce z nedostatku testovacích příkladů – spíše než z vnitřního fungování modelu.