Início Blog IA Open Source: Olmo 3 REVELADO com funções INÉDITAS

IA Open Source: Olmo 3 REVELADO com funções INÉDITAS

23
0

Segura essa, galera! A comunidade open source acaba de ganhar um reforço de peso: o Olmo 3! 🚀 Sim, ele foi lançado em 20 de novembro de 2025 e promete revolucionar a forma como a gente pensa em IA. E por que você deveria se importar? Porque ele não é só mais um modelo, ele é um divisor de águas no mundo da inteligência artificial acessível e transparente.

IA Open Source: Olmo 3 REVELADO com funções INÉDITAS

O Que Aconteceu

O Olmo 3 chega como uma família de modelos compactos e densos, com opções de 7 bilhões e 32 bilhões de parâmetros. Pra quem busca o melhor desempenho, o Olmo 3-Base (7B, 32B) é a pedida, entregando resultados incríveis entre os modelos de base totalmente abertos. E não para por aí! Ele compete de igual pra igual com gigantes como Qwen 2.5 e Gemma 3, mantendo o desempenho em comprimentos de contexto estendidos de até 65K tokens. É poder que não acaba mais, bicho!

Mas a cereja do bolo é o Olmo 3-Think (7B, 32B), o melhor modelo de raciocínio de 32B totalmente aberto que existe. Ele serve como um verdadeiro workhorse para pesquisa de RL e, na versão de 7B, torna o raciocínio aberto e inspecionável acessível até em hardware mais modesto. E pra quem curte um bate-papo inteligente, o Olmo 3-Instruct (7B) é um pós-treinamento focado em resposta rápida, superando modelos de peso aberto como Qwen 2.5, Gemma 3 e Llama 3.1. Tem também o Olmo 3-RL Zero (7B), um caminho de aprendizado de reforço totalmente aberto construído no Olmo 3-Base.

O Olmo 3 oferece vários caminhos documentados através do desenvolvimento, incluindo o caminho Instruct, o caminho RL Zero e o caminho Think/raciocínio. Pra construir essa maravilha, foi usada uma arquitetura de transformador somente decodificador e um pipeline de treinamento multiestágio. E os dados? Ah, os dados! O Olmo 3 foi pré-treinado em Dolma 3, um novo corpus de aproximadamente 9,3 trilhões de tokens. Dentro do Dolma 3, temos o Dolma 3 Mix, uma mistura de pré-treinamento de 5,9 trilhões de tokens. E ainda tem o Dolma 3 Dolmino, com 100B tokens de treinamento amostrados de um pool de ~2,2T tokens de dados de alta qualidade de matemática, ciência, código, seguimento de instruções e compreensão de leitura.

E não podemos esquecer do Dolma 3 Longmino, com seus ~50B tokens de treinamento extraídos de um pool de 639B tokens de documentos longos, combinados com dados de treinamento médio pra ensinar o Olmo 3 a rastrear informações em entradas gigantescas. Pra dar um gás no raciocínio, uso de ferramentas e seguimento de instruções, criaram o Dolci, um novo conjunto de dados de pós-treinamento. E pra rodar tudo isso, o Olmo 3 foi pré-treinado em um cluster de até 1.024 GPUs H100, alcançando um rendimento de treinamento de 7,7K tokens por dispositivo por segundo para o Olmo 3-Base (7B). O treinamento médio foi feito em 128 GPUs H100 e o pós-treinamento em um conjunto de 256 H100s. Pra completar, o Olmo 3 integra-se com OlmoTrace, e usa Olmo-core, uma estrutura de última geração para treinamento de modelos distribuídos. E tem mais: Open Instruct, datamap-rs, duplodocus, OLMES, e decon, um arsenal de ferramentas pra deixar tudo tinindo!

E os resultados? O Olmo 3-Base (32B) detonou, alcançando 80,5 no GSM8k, 43,9 no BigCodeBench e 66,5 no HumanEval. Já o Olmo 3-Think (32B) foi ainda mais longe, com 96,1 no MATH, 89,8 no BigBenchHard e 91,4 no HumanEvalPlus. E pra fechar com chave de ouro, o Olmo 3-Instruct (7B) mandou um 87,3 no MATH, 71,2 no BigBenchHard e 77,2 no HumanEvalPlus. E claro, não podemos esquecer das competições AIME 2024, AIME 2025, e das comparações com Qwen 3 8B, Qwen 3 VL 8B Thinker, Qwen 3 VL 32B Thinking, e DeepSeek R1 Distill 32B. É poder demais, bicho!

Entendendo o Contexto

O lançamento do Olmo 3 representa um marco importante no desenvolvimento de modelos de linguagem de código aberto. A iniciativa de compartilhar não apenas o modelo final, mas todo o ecossistema de ferramentas e dados utilizados em seu treinamento, promove a transparência e a colaboração na comunidade de IA. Essa abordagem permite que pesquisadores e desenvolvedores compreendam melhor o funcionamento interno do modelo, identifiquem possíveis vieses e adaptem o Olmo 3 para diferentes aplicações. Ao contrário de modelos proprietários, que muitas vezes são “caixas pretas”, o Olmo 3 oferece a oportunidade de inspecionar e modificar cada etapa do processo, desde a coleta de dados até o ajuste fino dos parâmetros.

A decisão de disponibilizar o fluxo completo do modelo, desde os dados de treinamento até os checkpoints, é fundamental para impulsionar a inovação na área de IA. Ao permitir que outros pesquisadores repliquem e aprimorem o trabalho original, o Olmo 3 contribui para o avanço do conhecimento e o desenvolvimento de novas técnicas. Além disso, a transparência do processo de treinamento aumenta a confiança na IA, permitindo que os usuários compreendam como o modelo toma decisões e identifiquem possíveis problemas. A comparação do desempenho do Olmo 3 com outros modelos de linguagem, tanto de código aberto quanto proprietários, em diversas tarefas e benchmarks, demonstra o compromisso com a qualidade e a busca por resultados superiores.

Por Que Isso É Importante

A importância do Olmo 3 reside na sua abordagem de código aberto e na transparência do seu processo de desenvolvimento. Ao contrário de modelos proprietários, que são controlados por grandes empresas e têm seu funcionamento interno oculto, o Olmo 3 oferece a oportunidade para que qualquer pessoa possa entender, verificar e construir sobre o sistema de IA. Isso promove a democratização do acesso à tecnologia e permite que pesquisadores, desenvolvedores e entusiastas contribuam para o seu aprimoramento. A possibilidade de inspecionar os dados de treinamento, os algoritmos utilizados e os resultados obtidos aumenta a confiança na IA e permite que os usuários identifiquem possíveis vieses e problemas.

Além disso, o Olmo 3 serve como um exemplo de como a colaboração e a transparência podem impulsionar a inovação na área de IA. Ao compartilhar todo o fluxo do modelo, desde os dados de treinamento até os checkpoints, os desenvolvedores do Olmo 3 incentivam outros pesquisadores a replicar e aprimorar o seu trabalho. Isso acelera o processo de descoberta e permite que novas técnicas e abordagens sejam desenvolvidas de forma mais rápida e eficiente. A disponibilidade de modelos de linguagem de código aberto como o Olmo 3 também é fundamental para garantir que a IA seja desenvolvida de forma responsável e ética, levando em consideração os valores e as necessidades da sociedade.

Aqui no Buteco…

A iniciativa do Olmo 3 é um passo gigante pra democratizar a IA, tirando ela das mãos de poucos e abrindo pra comunidade. Concordo totalmente com a visão dos autores originais: a transparência e a colaboração são essenciais pra construir um futuro da IA mais justo e confiável. E aí, o que você achou dessa iniciativa open source? Deixa sua opinião nos comentários! Aqui no Buteco Nerd, todo mundo tem voz (e a primeira rodada é por nossa conta! 🍺)

LEAVE A REPLY

Please enter your comment!
Please enter your name here