1.1 – Introduzione all’AI generativa di immagini
Trascrizione
Ciao a tutti e benvenuti in questo nuovo corso sulla piattaforma di Studio SAMU Pro. Io sono Rares Rotario e oggi parleremo di Creatività AI, la generazione di immagini con DALI 3 e oltre. Andremo ad esplorare la possibilità di creare immagini con l’utilizzo dell’intelligenza artificiale, con un grosso focus su DALI 3, che è l’ultimo strumento adatto a questo tipo di esigenza da parte di OpenAI, gli stessi creatori di chatGPT. Io sono Rares Rotario, mi presento brevemente, sono un consulente di digital marketing specializzato in SEO e intelligenza artificiale e la mia carriera mi ha visto passare dal settore della logistica a quello del poker sportivo professionale, ma grazie a Studio SAMU, perché comunque io ho iniziato la mia formazione qui con Studio SAMU, dal 2020 gestisco i canali web di diversi clienti nel settore food industriale e di formazione. Vengo qui a presentarvi questo corso e guardiamo insieme cosa andremo a scoprire. Innanzitutto parleremo dei fondamenti della I-generativa, quindi andiamo a capire, pur non essendo dei tecnici, più o meno come funziona, perché quando andiamo a utilizzare uno strumento almeno dobbiamo avere un’idea di come lo strumento effettivamente funziona. Comunque faremo una panoramica, è chiaro che il discorso diventa molto tecnico e molto verticale quando si tratta di intelligenza artificiale. Andremo poi ad esplorare gli strumenti leader nel mercato, quindi oltre ad All-E3, con il quale ci concentreremo in questo corso, andremo a esplorare anche gli altri competitor e notando le varie differenze che c’è tra ognuno, visto che comunque ognuno è adatto a delle esigenze specifiche. Faremo un approfondimento su All-E3 e quindi faremo proprio degli esempi e dei consigli su come personalizzare ulteriormente le vostre immagini quando le create. Infatti con personalizzazione e creatività vedremo come All-E3 riesce a modificare le nostre immagini in base a nuovi input che noi gli diamo. Infine andremo ad esplorare le ultime funzionalità AI dello strumento Canva. Per chi non lo conoscesse Canva è un sito web che dà il servizio di creazione grafiche online, dentro il quale hanno da poco aggiunto delle nuove funzionalità che utilizzano l’intelligenza artificiale per migliorare ulteriormente le vostre creazioni e quindi andremo ad esplorare le funzionalità più interessanti. Ma partiamo dalle basi, andiamo subito a vedere la nostra panoramica all’introduzione all’AI generativa di immagini per capire più o meno come funziona e vedere un attimo le tecnologie che sfrutta per poter generare appunto questo materiale. Partiamo da una domanda semplice che cos’è l’AI generativa? Leggiamo la definizione. L’intelligenza artificiale generativa è una branca dell’AI che si concentra sulla creazione di contenuti nuovi e originali. Utilizzando algoritmi avanzati queste intelligenze artificiali sono in grado di produrre opere che vanno dalle immagini a musica fino a testi e video che possono sembrare creati da un umano. Quindi in poche parole l’intelligenza generativa utilizza algoritmi avanzati prendendo dati da grossi database e in base a quelli cerca appunto di soddisfare la richiesta dell’utente generando il materiale che egli ha richiesto. Andiamo a esplorare i punti chiave di questa nuova tecnologia dove possiamo vedere che l’AI generativa ha le sue radici negli algoritmi di apprendimento automatico e nelle reti neurali che imitano il funzionamento del cervello umano per creare nuovi contenuti. Nel mio corso base di CiaGPT e su questa piattaforma su Studio Siamo Pro questo argomento viene trattato più nel dettaglio, vi consiglio di andarvelo a vedere. Il secondo punto chiave è l’evoluzione di questa tecnologia perché comunque questa tecnologia esiste da tanto tempo solamente che non era così avanzata. All’inizio appunto si parlava di semplici pattern o texture ma si è evoluta fino a creare opere complesse come ritratti, paesaggi e adesso persino animazioni. Il terzo punto chiave è chiaramente le applicazioni dove possiamo applicare questa nuova tecnologia di AI generativa. Oltre all’arte e al design l’AI generativa viene utilizzata in numerosi campi come la generazione automatica di codice, la simulazione di scenari per la formazione AI e la creazione di ambienti di gioco per videogiochi. Per esempio ci sono nuovi videogiochi in questo momento dove quando viene creata la piattaforma quindi il mondo del videogame si utilizza l’AI generativa per creare mappe aggiuntive o mondi aggiuntivi sul gioco stesso in tempo reale in base alle azioni dell’utente. Diciamo che non è più un design prefissato ma viene calcolato al momento quando l’utente arriva in quella determinata parte del videogame e viene creato di conseguenza il proseguo del gioco. Prima abbiamo menzionato che l’AI generativa utilizza meccanismi di apprendimento delle reti neurali. Andiamo a vedere più specificatamente che cosa sono. Le reti neurali sono il cuore dell’AI generativa. Similmente al cervello umano queste reti sono composte da nodi o neuroni interconnessi che elaborano e trasmettono informazioni. Attraverso un processo di apprendimento su vasti set di dati le reti neurali imparano a riconoscere schemi e generare nuovi contenuti che rispecchiano quelli appresi. Quindi in pratica più informazioni noi diamo in pasto più il modello riesce a fornire output sempre più dettagliati perché appunto questi nodi si comportano esattamente o comunque in modo molto molto simile ai neuroni del cervello e quindi ci sono tutti questi nodi di dati e man mano che noi immagazziniamo sempre nuovi dati vanno a formare un database in poche parole che vanno poi a ripescare da quei dati per continuare a generare contenuti apprendendo dai nuovi input e quindi continuare e continuare a migliorarsi. Adesso andiamo a vedere quali sono i punti chiave dei principali meccanismi di apprendimento delle reti neurali dove possiamo vedere che vengono utilizzati due tipi di apprendimento ovvero l’apprendimento supervisionato e non supervisionato cioè le reti neurali possono essere addestrate con o senza etichette specifiche permettendo loro di generare contenuti in base a esempi forniti o attraverso l’esplorazione autonoma di dati quindi noi quando consegniamo i dati al modello possiamo dargli dei paletti quindi possiamo impostare delle regole e supervisionare il proprio apprendimento quindi noi possiamo dire tieni questi dati ma questa parte di dati non impararla oppure ignorarla oppure fai focus su questo tipo di dato e tralascia altri tipi di dati in base a tutto il database che ti do oppure non supervisionato quindi si lascia completa libertà alla rete di sviluppare gli output solo basandosi sui dati quindi senza alcuna indicazione da parte del programmatore. Inoltre l’AI generativa per immagini utilizza quello che in acronimo viene chiamato GANS ovvero reti generativa adversarial. Che cos’è il GANS? È una tecnica particolarmente potente dove due reti neurali lavorano in competizione dove una genera contenuti da una parte e l’altra valuta la loro autenticità e la loro qualità migliorando progressivamente la qualità della generazione quindi c’è una rete che produce un’altra rete in contemporanea che valuta il contenuto prodotto fornisce feedback alla prima rete così la qualità della generazione progressivamente andrà ad aumentare ed infine queste reti ovviamente utilizzano il Deep Learning che è un ramo avanzato dell’apprendimento automatico che utilizza reti neurali profonde per elaborare e generare dati complessi come appunto immagini ad alta risoluzione quindi questo fa parte sempre del processo di apprendimento dove una volta che noi gli consegniamo i dati e l’AI inizia a lavorare con i dati che gli abbiamo consegnato e inizia a crearne di nuovi tramite il processo di Deep Learning questi dati nuovi non andranno persi e anzi verranno utilizzati per migliorare appunto la qualità delle generazioni successive. Bisogna tenere conto però che come tutti gli strumenti ha delle potenzialità e delle limitazioni andiamole a vedere insieme. AI generativa, potenzialità e limiti vediamo un attimo in base all’AI generativa per immagini quali sono le potenzialità e i limiti più diciamo più più noti tra le potenzialità troviamo appunto l’innovazione nel design e nell’arte perché comunque questo strumento ci permette di creare da zero nuovi design e nuovi pezzi d’arte che poi possiamo usare eventualmente come ispirazione quindi anche per chi l’arte la produce old school come è giusto che sia tra parentesi può avvalersi di questi strumenti per raccogliere idee per esplorare nuovi design per cercare di aumentare la qualità delle proprie opere e questo comporta anche appunto un’accelerazione del processo creativo quindi se noi abbiamo già uno strumento così potente che ci dà già un’idea dell’opera che possiamo creare del materiale che possiamo creare e questo ci aiuta molto nelle tempistiche quindi ci aiuta appunto anche aumentare la produttività e infine personalizzazione di massa e applicazioni nel marketing dove appunto possiamo utilizzare i contenuti generati tramite questi strumenti per le nostre applicazioni nel nostro lavoro quindi che sia per la foto del sito web la foto del tuo blog o una lucandina per un canale social con queste potenzialità arrivano anche però dei limiti perché comunque è tutto bello ma tutto ha un limite per ora poi in futuro chi lo sa tra i limiti troviamo appunto rischi di perdita di originalità e di autenticità per ovvi motivi visto che adesso questi strumenti sono disponibili per tutti e tramite un prompt efficace si riesce ad ottenere comunque un risultato interessante il rischio diventa che tutta la scena di arte digitale possa riempirsi di artisti fake tipo come me che utilizzano e creano opere solo utilizzando questi strumenti il problema che ha furia poi di farlo tutto insieme alla fine tutte le opere risulteranno uguali o comunque sulla stessa con lo stesso stile sulla stessa falsariga perché comunque sempre una macchina se tutti ci mettiamo a utilizzare questo per creare le nostre opere artistiche tempo poco saranno tutte uguali fondamentalmente e quindi questo è un grosso rischio che il web si popoli di troppe opere d’arte create appunto con le AI e che si vadano un po’ a perdere chi invece le crea da zero con le proprie abilità oltre a questo appunto per chi le crea da zero e con le proprie abilità ci sono questioni di diritto d’autore e proprietà intellettuale perché comunque questi strumenti non inventano a caso anche se guardiamo le immagini qui a lato non sono totalmente create da lui perché come funziona lui ha un grosso set di dati e quindi quando noi gli chiediamo un’immagine di questo tipo lui va a leggere quei dati e in base a quelli forma l’immagine che ti vuole generare ma potrebbe diventare un problema il fatto che i dati presenti vengono presi da opere di altri comunque cioè questa immagine qui è stata creata andando a leggere e combinare migliaia migliaia di opere già presenti online in base ai quali l’AI generativa ti va a generare la tua propria immagine e quindi però il rischio diventa che un pezzo di questa immagine potrebbe essere appunto la creazione di qualcun altro che l’AI generativa ha leggermente interpretato altre volte potrebbe essere ancora più grave di proprio che ti va a prendere l’opera esattamente di qualcun altro, modifica un attimo il filtro, modifica un attimo qualche altra caratteristica della foto e te la consegna come nuova ma in realtà bisogna tenere a mente che alla base di tutte queste creazioni nuove che queste AI generano ci sono opere vere, c’è un database di immagini vere e originali. Un altro dei limiti sono le sfide tecniche come il bias nei dati e la necessità di grandi set di dati per l’addestramento, questi sono strumenti che per crearli sono molto molto costosi perché innanzitutto siamo ancora un po’ all’inizio con il bias dei dati cioè nonostante i dati ne vengono caricati alcuni non sempre riesce ad interpretarli alla lettera ma questo perché comunque il modello ancora nuovo e vedremo che nei prossimi anni verrà ottimizzato molto. Il problema di adesso è che non è ancora in grado di interpretare tutti i dati, poi ne interpreta la maggior parte benissimo in modo sbalorditivo, cioè questo tra parentesi, ma ancora pecca su qualche stringa di dato e quindi magari c’è qualche dato che lo interpreta nel modo sbagliato. L’altro limite è la necessità di grandi set di dati per l’addestramento, più l’immagine di output è qualitativa e più vuol dire che il set di dati è molto grande, per gestire e avere una piattaforma su dei server che gestisce questo enorme database è una giostra molto molto costosa e quindi da tenere in piedi un generatore di immagini ha dei costi fissi molto molto alti. Infine, uno dei più grandi limiti noti a tutti sono le mani, purtroppo in questi modelli ancora non sono in grado di replicare le mani umane, quindi spesso ci andremo a trovare mani con sei dita, mani con quattro dita, mani tutte un po’ strane, cioè comunque non riesce a creare bene ancora le mani, soprattutto quando interagiscono con un oggetto. Un altro limite che qui non è menzionato sono anche gli occhi, quindi gli occhi sembrano un po’, quando noi chiediamo di creare delle persone, a volte hanno uno sguardo un po’ perso, sono un po’ inquietanti in realtà, però sì, sul fatto che le persone sono comunque più difficoltose da andare a creare, anche per questioni di privacy e di diritti, dove le AI generativa cerca di andare a prendere dati che non possono violare i diritti di nessuno, a volte le facce sono un po’ anonime, oppure se gli chiedi di creare un gruppo di persone spesso hanno una faccia molto simile e tutti con le mani sbagliate e gli occhi un po’ spiritati che guardano nel vuoto, poi avremo modo di andare a vedere. E quali sono invece le prospettive future per questa tecnologia? Andiamo a vedere, perché chiaramente adesso siamo ancora agli inizi, quindi ora tutti gli strumenti che andremo a vedere oggi sono i pionieri di quello che sarà poi una parte centrale del nostro lavoro futuro, partendo dalle innovazioni tecnologiche, oggi come abbiamo visto gli strumenti hanno dei limiti e nonostante abbiano delle capacità considerevoli, hanno comunque dei limiti, con il futuro e le innovazioni tecnologiche potremmo avere accesso a una generazione di contenuti ancora più sofisticate e personalizzate. Poi abbiamo le applicazioni emergenti, potenziali nuovi usi dell’AI generativa in campo come l’educazione, la medicina e l’ingegneria, dove può aiutare a modellare scenari complessi o creare soluzioni su misura, come vedremo dopo dall’I3 si interfaccia perfettamente con ChatGPT, quindi noi mentre facciamo una conversazione con ChatGPT possiamo chiedergli di aggiungere un’immagine o crearci un’immagine sul concetto appena discusso insieme, quindi noi possiamo per esempio scrivere un articolo per un blog con ChatGPT ed infine chiedergli di fornirci delle immagini infografiche per arricchire l’articolo e quello lo possiamo fare nella stessa finestra della chat, senza dover cambiare strumento e andare a rifare il prompt per un altro strumento diverso ed infine in futuro quasi sicuramente avremo un aumento dell’interazione umano-macchina che ci mostrerà come l’AI generativa potrebbe cambiare il nostro modo di interagire con le macchine rendendo le partner più creativi e collaborativi, quindi ci sarà un approccio diverso a quell’approccio che oggi abbiamo con il nostro tostapane, diciamo che secondo me la tecnologia va in quel senso, un giorno potremmo dire a voce al nostro tostapane il grado di tostatura che vogliamo del nostro pane e farci anche dire quanti minuti e secondi ci metterà a farlo in modo da organizzarci al meglio per uscire di casa se siamo in ritardo, quindi cambierà l’interazione umano-macchina ma non solo con questi strumenti, non solo con i vari tool online eccetera eccetera, ma questa tecnologia verrà applicata anche agli strumenti che utilizziamo tutti i giorni non per forza legati a digital marketing come potrebbe essere appunto il tostapane o un qualsiasi elettrodomestico come già ci sono le smart tv arriveranno anche gli smart frigoriferi se non esistono anche quelli già alcuni ce ne sono e insomma questa tecnologia in futuro la vedremo applicata a sempre più e più utilities.