Počítačové vidění směřuje k „zdravému rozumu“ s nejnovějším průzkumem Facebooku – TechCrunch

Strojové učení je schopné dělat všechny druhy věcí, pokud máte data, která ho naučí, jak na to. To není vždy snadné a vědci vždy hledají způsob, jak do AI přidat trochu „zdravého rozumu“, abyste nemuseli předvádět až 500 fotografií kočky. Nejnovější průzkum na Facebooku Je to velký krok ke snížení úzkých míst v datech.

Masivní divize výzkumu AI společnosti již roky pracuje na tom, jak vyvíjet a škálovat věci, jako jsou pokročilé algoritmy počítačového vidění, a dosáhla stabilního pokroku, který je obecně sdílen se zbytkem výzkumné komunity. Jedním ze zajímavých vývojů, které Facebook zejména sledoval, je jeho takzvané „učení pod částečným dohledem“.

Obecně platí, že když přemýšlíte o výcviku umělé inteligence, myslíte na něco jako 500 fotek koček – fotky, které byly identifikovány a pojmenovány (což může znamenat identifikaci kočky, umístění krabičky kolem kočky nebo jen řeknutí, že je kočka někde tam někde) Aby systém strojového učení mohl navrhnout algoritmus pro automatizaci procesu rozpoznávání koček. Samozřejmě, pokud chcete vyrábět psy nebo koně, potřebujete 500 obrázků psů, 500 obrázků koní atd. – jsou to váhy. Lineárně„Což je slovo, které v technologii nikdy nechcete vidět.

Učení pod dohledem, spojené s „nekontrolovaným“ učením, zahrnuje objevování důležitých částí datové sady bez jakýchkoli rozčleněných dat. Nejen, že fermentuje, ale stále existuje struktura; Představte si například, že dáte systému tisíc vět ke studiu a poté zobrazíte dalších 10, které obsahují mnoho chybějících slov. Systém pravděpodobně udělá slušnou práci při vyplňování mezer na základě toho, co bylo vidět v minulých tisíciletích. S fotografiemi a videi to však není snadné – nejsou přímé ani předvídatelné.

Vědci z Facebooku však ukázali, že i když to nemusí být snadné, je to možné a ve skutečnosti velmi efektivní. Systém DINO (který poněkud nepřesvědčivě znamená „DIstilace znalostí bez štítků“) se dokáže naučit najít zajímavé věci ve videích lidí, zvířat a věcí bez jakýchkoli rozčleněných údajů.

Kredity obrázků: Sociální síť Facebook

Dělá to tak, že video nevidí jako sérii obrazů, které mají být analyzovány jeden po druhém, ale jako komplexní a vzájemně propojená skupina, jako je rozdíl mezi „řetězcem slov“ a „větou“. Díky účasti na středu a konci videa i na začátku může agent rozpoznat věci jako „Objekt s tímto obecným tvarem jde zleva doprava.“ Tato informace poskytuje další znalosti, například když se objekt vpravo překrývá s prvním prvkem, systém ví, že nejde o totéž, pouze se dotýká těchto rámců. Tyto znalosti lze zase aplikovat na jiné situace. Jinými slovy, rozvíjí základní smysl pro vizuální význam, a to s malým znatelným procvičováním nových věcí.

Výsledkem je systém počítačového vidění, který je nejen efektivní – funguje dobře ve srovnání s konvenčně trénovanými systémy – ale je také relatabilnější a vysvětlitelnější. Například zatímco AI trénovaná s 500 obrázky psů a 500 obrázky kočky rozpozná obojí, nebude mít tušení, že jsou jakýmkoli způsobem stejné. Ale DINO – i když to nemůže být konkrétní – si uvědomuje, že jsou si navzájem vizuálně podobné, každopádně více než v automobilech, a tato metadata a kontext jsou viditelné v jeho paměti. Psi a kočky jsou si v tomto druhu digitálního znalostního prostoru „bližší“ než psi a hory. Tyto koncepty můžete vidět jako malé odrážky – podívejte se, jak tyto koncepty drží pohromadě:

Diagram ukazující, jak koncepty v modelu strojového učení zůstávají blízko u sebe.

Kredity obrázků: Sociální síť Facebook

To má své vlastní výhody, jaké zde nebudeme zahrnovat. Pokud vás zajímá, v odkazovaných listech tohoto blogového příspěvku na Facebooku najdete další podrobnosti.

V blízkosti je také výzkumný projekt, školicí metoda zvaná PAWS, která snižuje potřebu rozčleněných dat. PAWS kombinuje některé myšlenky učení pod dohledem s tradiční moderovanou metodou, což v podstatě dává školení podporu tím, že mu umožňuje učit se z kategorizovaných a neklasifikovaných dat.

Facebook samozřejmě potřebuje rychlou a dobrou analýzu obrazu mnoha produktů souvisejících s uživatelskými (a důvěrnými) snímky, ale není pochyb o tom, že tento veřejný vývoj ve světě počítačového vidění bude vývojářskou komunitou uvítán pro ostatní účely.

READ  Kuo: 2023 iPhone bude obsahovat „periskopický“ teleobjektiv

You May Also Like

About the Author: Danielle Brown

"Přátelský průkopník popkultury. Hodně padá. Sociální média geek. Obecný fanatik do kávy. Televizní nadšenec. Potížista."

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.