sexta-feira, 18 de agosto de 2023

Meta divulga novo modelo de IA para texto e imagem considerado 'sem precedentes'.

Depois do lançamento bombástico do Threads, a Meta resolveu avançar em um modelo de inteligência artificial. A big tech anunciou recentemente o CM3leon, um novo modelo IA gerador considerado pela empresa um “state-of-the-art”, uma expressão em inglês para algo equivalente a “de última geração”.

De acordo com uma publicação do site TaxiDesign, o CM3leon representa um avanço significativo nos recursos de geração de texto e imagem. Ao contrário de versões anteriores que se concentravam apenas na geração de texto para imagem ou imagem para texto, o modelo se destaca em ambos.

Segundo a Meta, houve avanços na geração de legendas de imagens, respostas a perguntas visuais, edição baseada em texto e geração de imagens. O gerador funciona usando receitas de dimensionamento que foram originalmente desenvolvidas para modelos somente de texto. Essas receitas foram aplicadas a modelos de geração de imagens baseados em tokenização, o que resultou em melhor desempenho e coerência na geração de imagens, diz a empresa.

Comparado a outros geradores no mercado, conforme o TaxiDesign, o CM3leon supostamente produz imagens mais coerentes e visualmente alinhadas com base em prompts de entrada.

Os principais destaques incluem a geração e edição de imagens guiadas por texto, que permitem ao algoritmo gerar imagens precisas quando o prompt é complexo. Ele também pode pegar uma determinada imagem e um prompt de texto para editar a imagem existente de acordo com as instruções do usuário.

O CM3leon também pode seguir prompts variados para gerar legendas e responder a perguntas sobre uma imagem. Além disso, quando recebe uma descrição de texto da segmentação da caixa delimitadora da imagem, o modelo é capaz de gerar uma imagem apenas a partir dela.

“É o primeiro modelo multimodal treinado com uma receita adaptada de modelos de linguagem somente de texto, incluindo um estágio de pré-treinamento aumentado de recuperação em grande escala e um segundo estágio de ajuste fino supervisionado (SFT) multitarefa”, pontua a Meta em uma publicação oficial em seu site. “O CM3Leon também pode demonstrar níveis sem precedentes de controlabilidade em tarefas que vão desde a edição de imagem guiada por linguagem até a geração e segmentação controladas por imagem”, complementa.


Fonte: Época Negócios.