Google říká, že veřejná data jsou férová hra pro trénink jeho AI • The Register

Google aktualizoval své zásady ochrany osobních údajů, aby potvrdil, že stahuje veřejná data z internetu, aby trénoval své modely a služby umělé inteligence – včetně chatbota Barda a jeho vyhledávače, který nyní poskytuje rychlé odpovědi na dotazy.

a Dobrý tisk V současné době probíhá výzkum a vývoj: „Google používá informace ke zlepšování svých služeb a k vývoji nových produktů, funkcí a technologií, které jsou přínosem pro naše uživatele a veřejnost. Veřejně dostupné informace využíváme například k trénování modelů umělé inteligence Google a vytvářet produkty a funkce, jako je Google Translate, Bard a Cloud AI.“

Veřejně dostupné informace používáme k trénování modelů umělé inteligence Google a vytváření produktů a funkcí

Zajímavě, reg Zaměstnanci mimo Spojené státy nemohli vidět text citovaný na výše uvedeném odkazu. ale Toto je soubor PDF Verze zásad společnosti Google uvádí: „Můžeme shromažďovat informace, které jsou veřejně dostupné online nebo z jiných veřejných zdrojů, abychom pomohli trénovat modely umělé inteligence Google a vytvářet produkty a funkce, jako jsou funkce Překladače Google, Bard a Cloud AI.“

Změny definují rozsah společnosti Google pro školení AI. Dříve se tyto zásady vztahovaly pouze na „jazykové modely“ a odkazovaly na Překladač Google. Znění však bylo změněno tak, aby zahrnovalo „modely umělé inteligence“ a zahrnovalo Bard a další systémy postavené jako aplikace na jeho cloudové platformě.

Řekl to mluvčí Googlu log Že aktualizace zásadně nezměnila způsob, jakým trénuje své modely AI.

„Zásady ochrany osobních údajů jsou již dlouho transparentní, že Google používá veřejně dostupné informace z otevřeného webu k trénování jazykových modelů pro služby, jako je Překladač Google. Tato nejnovější aktualizace jednoduše ukazuje, že jsou zahrnuty i novější služby, jako je Bard. Do vývoj našich technologií umělé inteligence v souladu s našimi principy umělé inteligence,“ uvedl mluvčí v prohlášení.

READ Vývojáři Payday 3 klamou hráče klasickým Rickrollovým žertem

Vývojáři už roky sbírají internet, fotoalba, knihy, sociální sítě, zdrojový kód, hudbu, články a další, aby sbírali tréninková data pro systémy AI. Tento proces je však kontroverzní, protože materiál je obvykle chráněn autorským právem, podmínkami použití a licencemi a celá věc vyústila v soudní spory.

Někteří lidé jsou nešťastní z toho, že nejen jejich obsah je využíván k vytváření systémů strojového učení, které duplikují jejich práci, a tím potenciálně ohrožují jejich živobytí, ale že výstup modelů se velmi blíží porušení autorských práv nebo licencí tím, že se tato tréninková data znovu vydávají beze změny.

Vývojáři AI mohou namítat, že jejich úsilí spadá pod fair use a že výstupy modelů jsou novou formou práce a ve skutečnosti nejsou kopií původních tréninkových dat. Je to velmi diskutovaný problém.

Amnesty International byla například žalována společností Getty Images za to, že sklidila a zneužila miliony obrázků ze svých webových stránek s obrázky k trénování nástrojů pro převod textu na obrázek. Mezitím OpenAI a její vlastník Microsoft byli zasaženi několika soudními spory, které ji obviňují z nesprávného seškrabování „300 miliard slov z internetu“ a „knih, článků, webových stránek a publikací – včetně osobních údajů získaných bez souhlasu“. zdrojový kód z veřejného úložiště k vytvoření programovacího nástroje pro páry AI GitHub Copilot.

Zástupce společnosti Google odmítl říci, zda reklamní a vyhledávací gigant zruší veřejná data chráněná autorským právem, licencovaná data nebo příspěvky na sociálních sítích, aby trénoval své systémy.

Nyní, když jsou lidé lépe informováni o tom, jak trénovat modely umělé inteligence, začaly některé internetové společnosti účtovat vývojářům přístup k jejich datům. přepadový zásobník, reddit, a Twitter například letos zavedly nové poplatky nebo pravidla pro přístup k jejich obsahu prostřednictvím API. Jiné weby jako Shutterstock a Getty se rozhodly licencovat své obrázky tvůrcům modelů umělé inteligence a uzavřely partnerství s podobnými meta A nvidia. ®

READ Mario Kart 8 vypadá jako hra současné generace se všemi limity s přednastaveným sledováním paprsků v novém videu