现在已经过去了几年,人工智能安全问题似乎在经验上是有效的(例如编码模型中的奖励黑客攻击),但 OpenAI 的“部署迭代和学习”方法到目前为止效果很好。模型变得更好,有些东西坏了,你边走边筑起护栏......
在以下情况下,这种情况会崩溃: 1) 另一个参与者在没有这些保护措施的情况下,在重要环境中部署强大的模型 2) 模型的改进速度过快,以至于我们的OODA循环无法跟上(例如,奇点场景)
这会在以下情况下失效: 1)另一个参与者在重要环境中部署强大的模型,而没有这些保护措施。 2)模型的改进速度太快,以至于我们的OODA循环无法跟上(例如,奇点场景)。
这会在哪些方面出现问题: 1)另一个参与者在没有这些保护措施的情况下,在重要的环境中部署强大的模型 或者 2)模型的改进速度过快,以至于我们的OODA循环无法跟上(例如,奇点场景)
226