1/ Может ли RL, специфичная для кодовой базы, раздвинуть границы для кодовых LLM? В @cgftlabs мы помогли клиенту настроить RL-Qwen-2.5-7B на их внутренней кодовой базе для создания модульных тестов с помощью GRPO, управляемой покрытием. Каков результат? Он превосходит o4-mini и o3. Вот как это работает (ссылка на полный блог в биографии) 🧵
7,87K