Multimidia omni!Novo modelo de IA da NVIDIA promete salto de 9x e apoio de gigantes como Oracle e FoxconnModelo interpreta documentos, gráficos, tabelas e entradas multimídia, permitindo que os

29 de abr.
3 min de leitura

agentes raciocinem sobre a estrutura visual e o conteúdo textual

A NVIDIA apresentou o Nemotron 3 Nano Omni, um modelo multimodal aberto que reúne essas capacidades em um único sistema. Isso permite que os agentes forneçam respostas mais rápidas e inteligentes com raciocínio avançado em vídeo, áudio, imagem e texto.

Este modelo de ponta oferece às empresas e aos desenvolvedores um caminho de produção para agentes multimodais de Inteligência Artificial mais eficientes e precisos. E com total flexibilidade e controle de implantação.

O Nemotron 3 Nano Omni estabelece uma nova fronteira de eficiência para modelos multimodais abertos. Ele traz precisão e baixo custo, liderando seis rankings em inteligência de documentos complexos e compreensão de vídeo e áudio.

Conforme a NVIDIA, empresas de IA e software que já adotaram o Nemotron 3 Nano Omni e o estão avaliando incluem Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir e Pyler, enquanto Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle e Zefr.

Multimodal, rápido e eficiente

O Nemotron 3 combina codificadores de visão e áudio em sua arquitetura híbrida de mistura de especialistas 30B-A3B. Com isso, ele elimina a necessidade de modelos de percepção separados, impulsionando a eficiência de inferência em escala.

Ele alia essa eficiência a uma alta precisão de percepção multimodal, permitindo que sistemas de IA alcancem uma taxa de transferência 9 vezes maior do que outros modelos omni abertos com a mesma interatividade.

O que resulta em custos mais baixos e melhor escalabilidade sem sacrificar a capacidade de resposta ou a qualidade.

Em sistemas de agentes, o Nemotron 3 Nano Omni pode funcionar em conjunto com modelos proprietários em nuvem ou outros modelos abertos NVIDIA Nemotron. Isso inclui Nemotron 3 Super para execução de alta frequência ou o Nemotron 3 Ultra para planejamento complexo.

Ele também pode operar com modelos proprietários de outros fornecedores, para alimentar subagentes para fluxos de trabalho de agentes, como uso de computador, inteligência de documentos e raciocínio de áudio e vídeo.

Outras características

Conforme a NVIDIA, o Nemotron 3 Nano Omni alimenta o ciclo de percepção para agentes que navegam em interfaces gráficas de usuário, raciocinam sobre o conteúdo na tela e compreendem o estado da interface do usuário ao longo do tempo.

E o mais recente agente de uso de computador da H Company, alimentado pelo Nemotron 3 Nano Omni, usa uma resolução de entrada nativa de 1920×1080 pixels para alcançar um raciocínio visual de alta fidelidade.

Em avaliações preliminares no benchmark OSWorld, essa integração demonstrou um salto significativo na navegação em interfaces gráficas complexas. Para tanto, utilizou-se a capacidade do Nemotron 3 Nano Omni de processar imagens de altíssima resolução.

Além disso, conforme o time verde, ele interpreta documentos, gráficos, tabelas, capturas de tela e entradas multimídia. E isso permite que os agentes raciocinem de forma coerente sobre a estrutura visual e o conteúdo textual. Essencial para fluxos de trabalho de análise e conformidade empresarial.Não só, ele compreende áudio e vídeo, permitindo que possa ser utilizado para fluxos de trabalho de atendimento ao cliente, pesquisa e monitoramento. O Nemotron 3 Nano Omni ainda mantém o contexto de áudio e vídeo, integrando o que foi dito, mostrado e documentado em um único fluxo de raciocínio.

Porém, apesar de todos esses benefícios anunciados, é conhecido que muitas das ferramentas não mantém o desempenho depois do contato com os usuários. Nem sempre se trata de erro, às vezes, trata-se simplesmente de uma solicitação fora dos padrões de teste.

E, no caso da NVIDIA, há um exemplo recente do DLSS 5, que foi chamado de “filtro de IA” e pessimamente recebido com a divulgação para o grande público. Inclusive, o estúdio de Phantom Blade Zero parece ter desistido de usar a tecnologia.

Fonte: NVIDIA.

Por Ramon de oliveira honorio

GamesMr100

gamesmr100 cultura nerd geek e gamer

Multimidia omni!Novo modelo de IA da NVIDIA promete salto de 9x e apoio de gigantes como Oracle e FoxconnModelo interpreta documentos, gráficos, tabelas e entradas multimídia, permitindo que os

Multimodal, rápido e eficiente

Outras características

Comentários

Follow us on Instagram

Multimodal, rápido e eficiente

Outras características

Comentários

​

Follow us on Instagram