DeepSeek: Um passo a passo do desenvolvimento da tecnologia que está mudando a história dos serviços de Inteligência Artificial

Redacao
Por Redacao
7 Min Read

Tongliang Liu, University of Sydney

A empresa chinesa de inteligência artificial (IA) DeepSeek causou ondas de choque na comunidade tecnológica, com o lançamento de seus modelos de IA tão eficientes que podem não só competir mas levar vantagem sobre produtos de ponta de empresas americanas como a OpenAI e a Anthropic.

Fundada em 2023, a DeepSeek alcançou seus resultados com uma fração do dinheiro e da capacidade de computação de seus concorrentes.

O modelo R1 de “raciocínio” da DeepSeek, lançado na semana passada, provocou entusiasmo entre os pesquisadores, choque entre os investidores e respostas de pesos pesados da IA. Nesta quinta-feira, 28 de janeiro, a empresa apresentou um modelo que pode trabalhar com imagens e também com texto.

Então, o que o DeepSeek fez e como ele fez isso?

O que o DeepSeek fez

Em dezembro, o DeepSeek lançou seu modelo V3. Esse é um modelo de linguagem grande “padrão” muito poderoso que tem desempenho em um nível semelhante ao GPT-4o da OpenAI e ao Claude 3.5 da Anthropic.

Embora esses modelos sejam propensos a erros e às vezes inventem seus próprios fatos, eles podem realizar tarefas como responder a perguntas, escrever redações e gerar códigos de computador. Em alguns testes de resolução de problemas e raciocínio matemático, eles obtêm resultados melhores do que a média dos seres humanos.

O V3 foi treinado a um custo informado de cerca de US$ 5,58 milhões. Isso é muito mais barato do que o GPT-4, por exemplo, que custou mais de US$ 100 milhões para ser desenvolvido.

A DeepSeek também afirma ter treinado o V3 usando cerca de 2.000 chips de computador especializados, especificamente GPUs H800 fabricadas pela NVIDIA. Novamente, esse número é muito menor do que o de outras empresas, que podem ter usado até 16.000 dos chips H100 mais potentes.

Em 20 de janeiro, o DeepSeek lançou outro modelo, chamado R1. Esse é um modelo chamado de “raciocínio”, que tenta resolver problemas complexos passo a passo. Esses modelos parecem ser melhores em muitas tarefas que exigem contexto e têm várias partes inter-relacionadas, como compreensão de leitura e planejamento estratégico.

O modelo R1 é uma versão ajustada do V3, modificada com uma técnica chamada aprendizado por reforço. O R1 parece funcionar em um nível semelhante ao OpenAI’s o1, lançado no ano passado.

O DeepSeek também usou a mesma técnica para criar versões “racionais” de pequenos modelos de código aberto que podem ser executados em computadores domésticos.

Esse lançamento provocou um enorme aumento de interesse na DeepSeek, elevando a popularidade de seu aplicativo de chatbot com tecnologia V3 e provocando uma queda maciça de preços nas ações de tecnologia, à medida que os investidores reavaliam o setor de IA. No momento em que este artigo foi escrito, a fabricante de chips NVIDIA perdeu cerca de US$ 600 bilhões em valor.

Como o DeepSeek fez isso

Os avanços do DeepSeek foram na obtenção de maior eficiência: obter bons resultados com menos recursos. Em particular, os desenvolvedores do DeepSeek foram pioneiros em duas técnicas que podem ser adotadas por pesquisadores de IA de forma mais ampla.

A primeira tem a ver com uma ideia matemática chamada “esparsidade”. Os modelos de IA têm muitos parâmetros que determinam suas respostas às entradas (o V3 tem cerca de 671 bilhões), mas apenas uma pequena fração desses parâmetros é usada para uma determinada entrada.

Entretanto, prever quais parâmetros serão necessários não é fácil. O DeepSeek usou uma nova técnica para fazer isso e, em seguida, treinou apenas esses parâmetros. Como resultado, seus modelos precisaram de muito menos treinamento do que uma abordagem convencional.

O outro truque tem a ver com a forma como o V3 armazena informações na memória do computador. O DeepSeek encontrou uma maneira inteligente de compactar os dados relevantes, de modo que seja mais fácil armazená-los e acessá-los rapidamente.

O que significa

Os modelos e as técnicas do DeepSeek foram lançados sob a licença gratuita MIT License, o que significa que qualquer pessoa pode baixá-los e modificá-los.

Embora isso possa ser uma má notícia para algumas empresas de IA, cujos lucros podem ser reduzidos pela existência de modelos poderosos disponíveis gratuitamente, é uma ótima notícia para a comunidade de pesquisa de IA em geral.

Atualmente, muitas pesquisas de IA exigem acesso a enormes quantidades de recursos de computação. Pesquisadores como eu, que trabalham em universidades (ou em qualquer outro lugar, exceto em grandes empresas de tecnologia), têm tido capacidade limitada para realizar testes e experimentos.

Modelos e técnicas mais eficientes mudam a situação. A experimentação e o desenvolvimento podem agora ser significativamente mais fáceis para nós.

Para os consumidores, o acesso à IA também pode se tornar mais barato. Mais modelos de IA podem ser executados nos próprios dispositivos dos usuários, como laptops ou telefones, em vez de serem executados “na nuvem” por uma taxa de assinatura.

Para os pesquisadores que já dispõem de muitos recursos, a maior eficiência pode ter um efeito menor. Quanto a isso, ainda não está claro se a abordagem da DeepSeek ajudará a criar modelos com melhor desempenho geral ou simplesmente modelos mais eficientes.

Tongliang Liu, Associate Professor of Machine Learning and Director of the Sydney AI Centre, University of Sydney

This article is republished from The Conversation under a Creative Commons license. Read the original article.

Compartilhe esta notícia