还剩 1 分钟
    跳到主要内容
    2024-06-06·1 分钟阅读

    我对 AI 安全和 AGI 的一些思考

    涂津豪 著

    关于 AI 安全

    我认为安全对于未来 AI 的发展至关重要。我之前和一个人就这个话题争论了很久。他觉得现在的 AI 系统还不够强大,不足以对我们构成威胁;而我认为我们应该未雨绸缪,为未来可能发生的任何事情做好充分准备。怎么说呢,我过去也不信《终结者》里那种"灾难性后果",但放到今天,AI 发展速度这么快,我确实会担心随之而来的隐患。我真的相信,像对齐(Alignment)、安全后训练(Security Post-training)这些东西,就是人类的救生员。它们能为模型的能力设定护栏,为里面那头"怪兽"划好边界——就像把模型锁在笼子里,我们人类可以从外面研究它,而不用担心它伤害我们。但这并不意味着我否定或排斥 AI 系统的发展,我觉得当前的这些模型都很棒;gpt-4o、claude-3-opus,还有即将推出的 llama-3-400b,都相当厉害。我只是希望它们在强大的同时也能更安全,也就是说,我们需要在两者之间找到一个完美的平衡点。而且 OpenAI 刚刚宣布要成立新的安全委员会(Security Committee),希望它能真正发挥作用 ;) 顺便说一下,我真的很喜欢 Anthropic;我喜欢他们的模型,喜欢他们的研究,尤其是最近那篇关于模型可解释性(Interpretability)的。我觉得能够"激活"模型内部特征的能力,真的为探索模型的能力开辟了一条全新的道路。我第一次读到那篇博客的时候真的很惊喜。

    关于 AGI

    AGI 是一个相当抽象的概念。我的意思是,"通用"到底有多"通用"?就连 Anthropic 的 ASL 分级体系也有点模糊。我觉得,实现"AGI"并不一定意味着我们需要一个在所有领域都超越人类的 AI 系统。我们只需要一个在大多数领域超越普通人类能力的系统就行了。但在那之前,我认为我们应该先确保 AI 系统能够真正理解:

    • 谜语
    • 笑话
    • Memes(梗图/网络迷因)
    • 成语/习语
    • 与特定文化背景相关的内容

    虽然这些看起来不那么重要,但我认为它们能反映模型最基本也最关键的语言能力。它们本质上是预测下一个词的系统,所以除非它们真正理解了词语背后的规律,否则不可能搞定我上面提到的那些东西。而如果一个模型在预测下一个词方面有很强的能力,或者说真正理解了词语之间隐藏的奥秘,那它整体的能力很可能就会非常强大。(这个观点我是从 Ilya 的一期播客里学到的 hahaha)但话说回来,如果一个 AI 系统真的不只是在平均水平上,而是在所有领域都超越了人类,那会怎样?我们会被取代吗?只有时间能告诉我们答案。我们唯一能做的就是做好充分准备,确保未来的前沿能够达到一种平衡。

    我希望 AGI 在未来能真正造福人类。