Microsoft AI čerpá objekty z textových popisov

Podľa akademického článku publikovaného výskumníkmi spoločnosti Microsoft je nový softvér umelej inteligencie vyvinutý v spoločnosti Microsoft schopný „kresliť“ v podstate čokoľvek z textových popisov. Napríklad, ak používateľ požiada počítač, aby „nakreslil žltého vtáka s čiernymi krídlami a malým zobákom“, výsledkom by bol ten, ktorý vidíte na obrázku.

Tieto vtáky nemusia existovať v skutočnom svete, sú len aspektom predstavivosti nášho počítača o vtákoch.

"Ak otvoríte vyhľadávanie vtákov Bing, uvidíte fotografie vtákov." Ale tu sú fotografie vytvárané počítačom, pixel po pixeli, od nuly, “komentoval vedúci výskumu spoločnosti Microsoft Xiaodong He k oficiálnej publikácii spoločnosti Microsoft. "Tieto vtáky nemusia existovať v skutočnom svete, sú len aspektom vtáčej fantázie v našom počítači, " dodal.

Ďalej uvádza, že súčasné výsledky, ktoré počítač prináša, nie sú dokonalé, ale môžu sa priblížiť. Ide o to, že taký inteligentný softvér by mohol nakoniec slúžiť ako pomocník pri kreslení pre umelcov alebo dokonca pre návrhárov interiérov.

microsoft

V budúcnosti by takýto profesionál mohol vyfotiť domáce prostredie a potom požiadať o počítač: „Pridajte do ľavého rohu drevené kreslo s moderným moderným štýlom.“ Počítač mohol nielen pomôcť nastaviť prostredie, ale tiež vytvoriť nábytok a ďalšie prvky.

proces

Počiatočný výskum tímu pracujúceho na tomto projekte v spoločnosti Microsoft začal experimentovaním s CaptionBot, systémom umelej inteligencie, ktorý dokáže písať popisné titulky pre každú fotografiu. Potom vytvorili ďalší softvér AI, ktorý dokáže odpovedať na otázky ľudí o fotografii SeenAI, čo môže byť užitočné najmä pre zrakovo postihnutých.

Nakoniec bola skupina schopná vyvinúť technológiu schopnú generovať tieto kresby z textových popisov. Prvá časť sa nazýva Generative Adversarial Network (GAN), určená na vytváranie obrázkov, a druhá časť je známa ako „Diskriminátor“, ktorý posudzuje kvalitu fotografií.

Pozornosť je ľudský koncept; používame matematiku, aby sme pozornosť venovali výpočtovému konceptu

Tento systém bol trénovaný s pármi snímok s titulkami, aby softvér mohol pochopiť, ktoré slová sa zhodujú s obrázkami. Neskôr bolo potrebné vytvoriť matematický model, ktorý by sa zameral na tvorbu vyvinutú systémom. „Pozornosť je ľudský koncept; využívame matematiku, aby sme pozornosť upozornili na výpočtový koncept, “povedal He.

Výskumník verí, že nakoniec bude možné vytvárať animované filmy zo skriptov napísaných pomocou podobných systémov, nemáme však predpovede o tom, kedy by sa čokoľvek tohto druhu mohlo komerčne uplatniť na akýkoľvek produkt spoločnosti Microsoft.

Microsoft AI „kreslí“ objekty z textových popisov pomocou TecMundo