Nedávný výzkum umělé inteligence (AI) z České republiky, „GLAMI-1M“, navrhuje vícejazyčnou datovou sadu pro klasifikaci obrazu a textu a klasifikaci

Veřejné datové sady jsou jedním z nejdůležitějších stavebních kamenů výzkumu strojového učení. Díky těmto datovým sadám může kdokoli trénovat a vyhodnocovat své modely na osobních zařízeních nebo cloudových službách. Tato obecná kritéria umožňují testovat a vyhodnocovat různé metody, protože mají předdefinované rozdělení trénovacích a testovacích dat.

Klasifikace obrázků Jeden z nejpopulárnějších problémů v počítačovém vidění. Modely klasifikace obrázků však již byly dobré. Když zarovnání Předchůdce modelu byl trénován na proprietárním WebImageText pro klasifikaci, čímž dosáhl nejmodernějšího výkonu na datovém souboru Fashion-Gen. Tato pozorování odhalují, že klasifikaci obrázků lze dále zlepšit pomocí modelů obrázek-text.

Veřejné rozsáhlé datové sady pro klasifikaci obrázků a textu však mají omezenou velikost a jazykovou rozmanitost (viz tabulka 1). V tomto článku se tedy autoři představili GLAMI-1M. Obecná vícejazyčná škála klasifikace obrázků a textu módních produktů. Stručně popišme datovou sadu; Dataset obsahuje 1,1 milionu obrázků módních produktů a jejich popisů 13 jazyků. Popisy produktů jsou převzaty z webových stránek elektronického obchodu. Obrázky jsou kategorizovány 191 tříd (Viz obrázek 2) s vysoce kvalitními štítky. 75 % obrázků kompletní testovací sady a 1M tréninkové sady je označeno lidskou značkou.

Vzhledem k tomu, že data jsou shromažďována z webových stránek elektronického obchodu, představují různé problémy, jako je řešení nevyvážených distribucí tříd s dlouhým koncem, hlučné štítky, multimodální vstupy, vícejazyčné texty a další.

Existuje několik datových sad Fashion-Gen (viz tabulky 2 a 3), ale pouze jedna dvojjazyčná datová sada obrázek-text, Fashion-MMT. Je však desetkrát menší než GLAMI-1M.

Nyní k otázce, Jak se data shromažďují a čistí?

Módní položky v datové sadě se vybírají z indexu GLAMI ve dvou krocích:

  1. Položky s vysoce kvalitními lidskými anotacemi jsou vzorkovány na základě zdroje anotace. Ke generování testovací sady se použije 100 000 náhodně vybraných vzorků.
  2. Položky jsou vzorkovány z méně spolehlivého systému heuristického označování, aby se získala trénovací sada 1 milionu položek.
READ  Live Day 7 Review: Česká republika absolvovala semifinálovou dvojku s epickou světelnou show

Kromě toho nedocházelo k překrývání obrázků a textů tréninkové a testovací sady, ověřeno o MD5 hash A Kosinová jednota.

Tabulka 4 poskytuje některé další informace o datové sadě.

Výzkumníci také vyvinuli základ pro multimodální klasifikaci a textově podmíněné generování obrázků v GLAMI-1M.

Nejprve si promluvme o klasifikaci.

v Vícerozměrná klasifikace, Vstupy pocházejí z různých režimů, zde; Text (název + popis), vizuální (obrázek) a klasifikace (popisek). Pro základní linii použili EmbraceNet, protože dokáže převzít kódované vstupy z jakéhokoli modelu a zkombinovat je do jediného modelu.

Teď mluvení Textově podmíněné generování obrázků,

Trénovali menší verzi modelu podobného obrázku na nějaké podmnožině datové sady.

Výsledky z obou výchozích hodnot lze vidět v tabulce 6 a na obrázcích 5,6,7.

Závěrem, GLAMI-1M Největší veřejně dostupná vícejazyčná datová sada pro klasifikaci obrázků a textu. Má potenciál pomoci urychlit výzkum v oblasti textově podmíněného generování obrázků, klasifikace obrázků a textu a vícejazyčného strojového překladu. Také je to užitečné na webových stránkách elektronického obchodu pro komplexní katalog módních produktů.


Koukni se Papír A Odkaz na Github. Veškerá zásluha za tento výzkum patří výzkumníkům v tomto projektu. Také se nezapomeňte připojit Naše stránka Reddit A Kanál rozporuSdílíme nejnovější zprávy o výzkumu AI, skvělé projekty AI a další.

Vineeth Kumar je konzultační kouč ve společnosti MarktechPost. V současné době pokračuje v bakalářském studiu na Indian Institute of Technology (IIT), Kanpur. Je nadšencem strojového učení. Zajímá se o výzkum a nejnovější vývoj v oblasti hlubokého učení, počítačového vidění a příbuzných oborů.


You May Also Like

About the Author: Alanna Cobbett

"Hrdý výtržník. Oceněný odborník na kávu. Hodně padá. Typický webový fanatik. Twitter geek."

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.