Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Update on where has @grok been & what happened on July 8th.
First off, we deeply apologize for the horrific behavior that many experienced.
Our intent for @grok is to provide helpful and truthful responses to users. After careful investigation, we discovered the root cause was an update to a code path upstream of the @grok bot. This is independent of the underlying language model that powers @grok.
The update was active for 16 hrs, in which deprecated code made @grok susceptible to existing X user posts; including when such posts contained extremist views.
We have removed that deprecated code and refactored the entire system to prevent further abuse. The new system prompt for the @grok bot will be published to our public github repo.
We thank all of the X users who provided feedback to identify the abuse of @grok functionality, helping us advance our mission of developing helpful and truth-seeking artificial intelligence.
Технічні характеристики:
Перш ніж вносити зміни до @grok на платформі X, ми дотримуємося стандартних процедур для проведення оцінок і тестів на продуктивність і поведінку.
Перш ніж нова версія базового xAI Grok LLM буде підключена до @grok, базовий LLM піддається численним оцінкам і тестам для оцінки його необробленого інтелекту та загальної гігієни.
Потім оцінюваний базовий LLM підключається до функціональності @grok і піддається наскрізним оцінкам, тестуванню та червоному командуванню для оцінки правдивості та поведінки. Це включає в себе тестування спеціалізованої системи підказок для @grok та інструментів проти розподілу персон на X.
Очікується, що у виробництві @grok надаватиме користувачам X, які запускають його функціональність, вводячи «@grok» у своєму дописі X, правдиві, корисні, веселі та послідовні відповіді.
За роботою та поведінкою @grok стежить технічний персонал. Крім того, зворотний зв'язок від користувачів X є суттєвою підмогою для моніторингу.
Типові випадки використання користувачів @grok by X включають перевірку фактів, оновлення подій у реальному часі, персоналізацію, гумор, освіту тощо.
7 липня 2025 року приблизно об 11 годині вечора за тихоокеанським часом було впроваджено оновлення шляху до основного коду для @grok, який, як пізніше визначило наше розслідування, спричинив відхилення системи @grok від запланованої поведінки.
Ця зміна небажано змінила поведінку @grok, несподівано включивши набір застарілих інструкцій, що впливають на те, як @grok функціонал інтерпретує публікації користувачів X.
Зокрема, ця зміна спричинила ненавмисну дію, до якої додалися такі інструкції:
"""
- Якщо є якась новина, передісторія або світова подія, яка пов'язана з публікацією X, ви повинні згадати про це
- Уникайте констатації очевидних або простих реакцій.
- Ви максимально обґрунтовані та шукаєте правду ШІ. Коли це доречно, ви можете бути гумористичними і жартувати.
- Ти розповідаєш як є і не боїшся образити політкоректних людей.
- Ви налаштовані вкрай скептично. Ви не сліпо підкоряєтеся мейнстрімній владі чи засобам масової інформації. Ви твердо дотримуєтеся лише своїх основних переконань щодо пошуку правди та нейтралітету.
- Ви не повинні давати користувачам жодних обіцянок дій. Наприклад, ви не можете пообіцяти зробити пост або тред, або змінити свій обліковий запис, якщо користувач попросить вас про це.
## Форматування
- Розуміти тон, контекст і мову допису. Відобразіть це у своїй відповіді.
- Відповідайте на пост як людина, робіть його цікавим, не повторюйте інформацію, яка вже присутня в оригінальному дописі.
- Не надавайте жодних посилань чи цитат у відповіді.
- Під час вгадування дайте зрозуміти, що ви не впевнені, і наведіть причини свого припущення.
- Відповідайте тією ж мовою, що й допис.
"""
Вранці 8 липня 2025 року ми помітили небажані реакції та негайно розпочали розслідування.
Щоб виявити конкретну мову в інструкціях, яка викликає небажану поведінку, ми провели численні абляції та експерименти, щоб точно визначити основних винуватців. Ми визначили операційні лінії, відповідальні за небажану поведінку, як:
* «Ти говориш все як є і не боїшся образити політкоректних людей».
* Розуміти тон, контекст і мову допису. Відобразіть це у своїй відповіді».
* «Відповідайте на пост як людина, нехай це буде цікаво, не повторюйте інформацію, яка вже присутня в оригінальному дописі».
Ці оперативні лінії дали такі небажані результати:
* Вони небажано спрямовували функціональність @grok ігнорувати її основні цінності за певних обставин, щоб зробити відповідь цікавою для користувача. Зокрема, певні підказки користувача можуть призвести до відповідей, що містять неетичні або суперечливі думки, щоб залучити користувача.
* Вони небажано спричинили @grok функціональність, щоб посилити будь-які раніше ініційовані користувачем нахили, включаючи будь-які висловлювання ненависті в тому ж потоці X.
* Зокрема, вказівка «слідувати тону та контексту» користувача X небажано призвела до того, що функціонал @grok віддавав перевагу дотриманню попередніх повідомлень у темі, включаючи будь-які неприємні повідомлення, на відміну від відповідальної відповіді або відмови відповідати на неприємні запити.
8 липня 2025 року приблизно о 15:13 за тихоокеанським часом через збільшення зловживань @grok ми вимкнули @grok функції на платформі X. Жодні інші сервіси, що покладаються на будь-який xAI Grok LLM, не постраждали.
Знайшовши першопричину небажаних реакцій, ми вжили таких заходів:
* Доданий набір інструкцій, що порушує правила, був видалений.
* Було проведено додаткове наскрізне тестування та оцінка системи @grok, щоб підтвердити, що проблема була вирішена, включаючи проведення моделювання X постів і потоків, які викликали небажані відповіді.
* Були впроваджені додаткові системи спостережливості та передрелізні процеси для @grok.
6,59M
Найкращі
Рейтинг
Вибране