Depois do lançamento bombástico do Threads, a Meta resolveu avançar em um modelo de inteligência artificial. A big tech anunciou recentemente o CM3leon, um novo modelo IA gerador considerado pela empresa um “state-of-the-art”, uma expressão em inglês para algo equivalente a “de última geração”.
De acordo com uma publicação do
site TaxiDesign, o CM3leon representa um avanço significativo nos recursos de
geração de texto e imagem. Ao contrário de versões anteriores que se
concentravam apenas na geração de texto para imagem ou imagem para texto, o
modelo se destaca em ambos.
Segundo a Meta, houve avanços na geração de legendas de imagens, respostas a perguntas visuais, edição baseada em texto e geração de imagens. O gerador funciona usando receitas de dimensionamento que foram originalmente desenvolvidas para modelos somente de texto. Essas receitas foram aplicadas a modelos de geração de imagens baseados em tokenização, o que resultou em melhor desempenho e coerência na geração de imagens, diz a empresa.
Comparado a outros geradores no mercado, conforme o TaxiDesign, o CM3leon supostamente produz imagens mais coerentes e visualmente alinhadas com base em prompts de entrada.
Os principais destaques incluem a geração e edição de imagens guiadas por texto, que permitem ao algoritmo gerar imagens precisas quando o prompt é complexo. Ele também pode pegar uma determinada imagem e um prompt de texto para editar a imagem existente de acordo com as instruções do usuário.
O CM3leon também pode seguir
prompts variados para gerar legendas e responder a perguntas sobre uma imagem.
Além disso, quando recebe uma descrição de texto da segmentação da caixa
delimitadora da imagem, o modelo é capaz de gerar uma imagem apenas a partir
dela.
“É o primeiro modelo multimodal
treinado com uma receita adaptada de modelos de linguagem somente de texto,
incluindo um estágio de pré-treinamento aumentado de recuperação em grande
escala e um segundo estágio de ajuste fino supervisionado (SFT) multitarefa”,
pontua a Meta em uma publicação oficial em seu site. “O CM3Leon também pode
demonstrar níveis sem precedentes de controlabilidade em tarefas que vão desde
a edição de imagem guiada por linguagem até a geração e segmentação controladas
por imagem”, complementa.
Fonte: Época Negócios.