#2 – The Essence of Multimodal Creativity (DALL-E/VQGAN/CLIP and more)

Um modelo típico de transformador de IA, como o GPT-3,
só é treinado em dados de texto brutos, principalmente da Internet. Como resultado, só pode gerar sequências
de texto. O GPT-3 pode ter lido sobre imagens e saber
do que se trata, mas, por design, nunca viu uma imagem antes. Muito menos algo como a Mona Lisa. Os modelos multimodais, entretanto, são treinados em
vários tipos de dados ao mesmo tempo.

Eles poderiam ser treinados em imagens e texto,
texto e vídeo, ou mesmo áudio e outros tipos de dados sensoriais. Ao olhar para o mundo através de múltiplos
meios (ou modalidades), estes modelos desenvolvem uma melhor compreensão holística do “
mundo real”. O modelo mais notável, o DALL-E da OpenAI,
pode gerar imagens apenas com uma descrição de texto. Dado o texto, “uma coleção de copos
está sobre a mesa”, o DALL-E conseguiu gerar instantaneamente essas imagens do zero. Observe a diversidade e a viabilidade real
de seus desenhos? É incrível que tenha conseguido fazer tudo isso
com uma simples descrição escrita em inglês. Um verdadeiro avanço para todos. No entanto, a verdadeira essência da criatividade multimodal
começa pela combinação de tipos únicos de texto e por tê-los “imaginados” para você como imagens
imediatamente pela IA.

Por exemplo, DALL-E recebeu a descrição
“uma cadeira em forma de abacate” e aqui está o que surgiu instantaneamente: Este impressionante design de produto industrial
é bastante inovador e representa a “mistura” de diferentes tipos de ideias que
é possível através de modelos multimodais. Vamos pegar esse conceito de “mistura”
e imaginar uma ferramenta, uma forma fácil de gerar logotipos. Imagine apenas fornecer uma descrição do seu
negócio, incluindo outros logotipos que você gosta, e descrever as influências específicas que você deseja que
seu logotipo tenha e, em seguida, sentar e observar a IA gerar infinitamente possibilidades de logotipo
para você. Imagine ser capaz de fornecer à IA sua história
e texto exatos e fazer com que ela gere fontes personalizadas e em grande escala para você, com base nos temas da história
que você está tentando contar, bem como em quaisquer obras de arte relacionadas. Em um nível menor, você pode até adicionar
pequenos pedaços de sua arte ou mídia favorita e adicionar texturas ricas fortemente influenciadas por
outros trabalhos criativos. Uma pitada de Pulp Fiction ou pinceladas de
Starry Night apenas em áreas de seu design ou versos específicos de seu novo poema.

Por fim, imagine ouvir um álbum, como o
meu favorito do ano passado, Man on the Moon 3, de Kid Cudi. E sentir-se emocionado e inspirado por ele, e
depois entregá-lo a um modelo de IA e pedir-lhe para gerar um novo par de sapatos baseado nas
emoções, direção criativa e estilo musical daquele álbum. Uau. A ideia principal Quando se trata de GPT-3, DALL-E e nosso
futuro multimodal – mixagem e texturização serão o nome do jogo. Aprenda a misturar ideias que você nunca conheceu antes
e desenvolva sua própria biblioteca pessoal e índice de seus trabalhos criativos favoritos. Use isso a seu favor. Adicione textura, profundidade e riqueza às suas próprias
criações e o resultado será algo totalmente novo que o mundo
nunca viu antes.

Texto inspirado em publicação no YouTube.

Quer Saber Muito Mais? Venha para a MIND21 Educação

Posts Relacionados

Deixe um comentário Cancelar resposta