Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aqui está o Ritual Research Digest desta semana, um boletim informativo que cobre as últimas novidades no mundo dos LLMs e a interseção de Crypto x AI.
Com centenas de artigos publicados semanalmente, é impossível manter-se atualizado com as últimas novidades. Faremos a leitura, para que você não precise.

Rubricas como recompensas: aprendizado por reforço além dos domínios verificáveis
Neste artigo, eles apresentam Rubricas como Recompensas (RaR), um método RL que usa rubricas de lista para supervisionar tarefas que têm vários critérios.

Isso permite um treinamento estável e um desempenho aprimorado nos domínios do raciocínio e do mundo real. Eles mostram que, quando usado para os domínios da medicina e da ciência, esse estilo de recompensas ajuda a alcançar um melhor alinhamento humano.
As listas de verificação são melhores do que os modelos de recompensa para alinhar modelos de linguagem
Neste artigo, eles introduzem o Reinforcement Learning from Checklist Feedback (RLCF) para extrair checklists dinâmicos de instruções para avaliar em listas flexíveis de critérios distintos.

Eles introduzem um conjunto de dados, WildChecklists, compreendendo 130.000 instruções e listas de verificação (geradas sinteticamente). Seu método reduz o problema de classificar as respostas para responder a perguntas específicas de sim/não, respondidas por um juiz de IA ou executando um programa de verificação.
A coleira invisível: por que o RLVR pode não escapar de sua origem
Este artigo tenta fornecer uma estrutura teórica para a questão: "O RLVR expande as capacidades de raciocínio ou apenas amplifica o que os modelos já sabem?"

Eles acham que RLVR: não ajuda o modelo a explorar possibilidades inteiramente novas.
Melhora pass@1, ou seja, permite responder melhor em menos tentativas.
Reduz a diversidade de respostas.
Tl; dr, RLVR melhora a precisão, mas muitas vezes falha em descobrir novos caminhos de raciocínio.
Além das recompensas binárias: treinando LMs para raciocinar sobre sua incerteza
Este artigo apresenta o RLCR (Reinforcement Learning with Calibration Rewards), um método direto que treina LLMs para raciocinar e refletir sobre sua própria incerteza.

Os métodos atuais de RL recompensam apenas a correção, ignorando a confiança do LLM em sua solução, incentivando a adivinhação.
O artigo projeta uma recompensa calibrada que é eficaz em benchmarks de controle de qualidade e matemática. Eles também descobriram que essa medida de confiança não tem custo para a precisão.

Dimensionamento inverso na computação em tempo de teste
Este artigo constrói tarefas em que o uso de mais computação de tempo de teste, ou seja, comprimentos de raciocínio mais longos em LRMs, resulta em pior desempenho, exibindo uma relação de escala inversa entre mais escala e precisão.

Siga-nos @ritualdigest para saber mais sobre todas as pesquisas sobre Crypto x AI e @ritualnet para saber mais sobre o que a Ritual está construindo.

3,8K
Melhores
Classificação
Favoritos