Ser ut som OpenAI har använt Nous "YaRN och kaiokendevs repskalning för förlängning av kontextlängden hela tiden - naturligtvis aldrig någon kredit men ... Den som säger att "öppen källkod bara stjäl från deras 'riktiga' forskning och rider på deras axlar" har helt fel Jag ringde det när de släppte utökad 128k kontext på gpt4 bara några veckor efter att Nous släppte garn lol för sammanhang om garn; Deepseek och Qwen använder det också; Papper:
Jimmy Apples 🍎/acc
Jimmy Apples 🍎/acc1 aug. 16:03
Eh Det kommer att komma ut ändå nu Konfiguration: {"num_hidden_layers": 36, "num_experts": 128, "experts_per_token": 4, "vocab_size": 201088, "hidden_size": 2880, "intermediate_size": 2880, "swiglu_limit": 7.0, "head_dim": 64, "num_attention_heads": 64, "num_key_value_heads": 8, "sliding_window": 128, "initial_context_length": 4096, "rope_theta": 150000, "rope_scaling_factor": 32.0, "rope_ntk_alpha": 1, "rope_ntk_beta": 32}
113,17K