ChatGPT会突然觉醒,成为新的「终结者」吗?
全文约9400字,预计阅读时间19分钟 正文: AI及大模型科普文章 1942年,当著名科幻作家阿西莫夫在小说中提出“机器人三定律”时,肯定不会想到,AI和机器人的进展会那么慢,又会那么突然。 说慢的原因是,这都80年过去了,我们仍没有看到他所设想的机器人的落地,2024 年最成功的家用机器人,是一台会被狗狗的便便轻易破防的扫地机器人。 但是发展速度却又很突然,2022年11月 ,ChatGPT上线,不到2年,人类社会如同被突然加速了一样,从硅谷的科技巨头到北京的小学生,人人都在聊AI,AI似乎成为了人类科技的助燃剂,有望帮助我们解决一系列的问题。远到宇宙的征途大海,近到人类梦想依旧的元宇宙,似乎都因为AI的兴起,有了新的可能。 到底,AI是如何从过去的只会围棋比赛和打DOTA,变成了今天的“万能”助理? 以及,终结者真的会到来吗?AI会在某个时刻突然觉醒,统治人类吗? 还有很多人疑惑:为什么感觉AI都火了两年,可是我觉得生活似乎也没有什么改变呢? 今天,我们就来聊一聊,2022 年突然“涌现”出来的AI,会不会毁灭人类,以及它会如何改变我们的未来。 01 突然“涌现”的AI,还仍是黑箱 要理解今天的AI和过往我们认知的AI,或者说影视作品里常见到的万能AI有何区别,需要解释三个词:涌现、Transformer架构和黑箱。 今天媒体在提到AI时,一般会提到另外一个词:大语言模型(Large Language Model),简称LLM。之所以这么叫是因为这些模型的参数都很大,一般起步就是10亿参数起。ChatGPT,如果对其进行技术分类的话,属于文本生成大模型的AI产品。文本生成大模型就是指这个大模型一般生成文字,无法生成图片或者视频。 目前也有专门用于图片生成和视频生成的大语言模型,它们的技术构架与文本生成模型有相似之处,但也有所不同。图片生成模型的产品如Midjourney已经开始商业化,视频生成模型如Sora、可灵等因为生成时间短、人物角色不可控等,还处于尝试阶段。 先说第一个词,Transformer架构,这是目前的文本生成大模型的主要技术基础之一,来源于谷歌于 2017发表的一篇论文《Attention Is All You Need》,这篇本来为了解决和优化机器翻译任务的论文,提出了一个新的神经网络结构——Transformer 架构。它适用于自然处理(NLP)领域,以注意力机制为核心。OpenAI的GPT模型就是基于Transformer架构构建的。 如果简单解释GPT架构的话,就是预测下一个词(Token)。比如给GPT模型一句话“明天看起来要___”,它会试图猜测划线部位应该是什么词语,会给出各种答案,而在人类的反馈训练后,它会倾向于给出“晴天”“下雨”等合理的词汇。 要注意的是,GPT说出“下雨”这个词,不代表它真正理解了这句话,它可能只是在无数种选择中,选择了人类最喜欢的那个回答。 也就是说,AI的理解,是一套高度复杂的模式识别和概率预测过程,基于对大量数据的统计分析,通过识别输入中的模式并生成相应的输出。AI没有真正的感知体验,也没有情感或意识参与其处理过程。 在OpenAI最初的GPT-1和GPT-2中,在基于一定数据和算力的训练下,大模型的表现还算不错,但是没有让大家为之惊喜的地步。很多情况下,系统仍需对特定任务进行调整才能获得好的效果。但到了GPT-3的时候,与GPT-2相比,模型的参数量翻了116倍,是一个拥有1750亿模型参数的大语言模型,模型的能力似乎突然就突破了奇点状态。 也就是说,当参数规模和机器算力达到如此惊人的规模后,AI的能力突然“涌现”了。 简单说来,这次的“涌现”就是大力出奇迹。 也就是说,数据量、算力、模型规模足够大之后,AI 的能力确实会提升,这也是目前各家AI研发公司努力的方向。大模型的参数量在不断提升,比如Meta(前Facebook)的Llama3大模型参数就达到了405B,也就是4050亿参数的规模。规模如此之大,需要用到的GPU显卡数量也在不断增加。大家所熟知的科技狂人——伊隆·马斯克刚刚建立起了他的10万显卡算力集群,就是为了用更大的算力和参数量来训练和提升他旗下的公司xAI研发的大模型。 要注意的是,涌现虽然某种程度可以说是AI突破了某个奇点,但这个奇点,不是科幻作家弗诺·文奇所提出的“技术奇点”,也无法说明AI真的理解了这些内容,因为目前模型的内部原理对于我们来说仍然是个“黑箱”。 用目前在创业的AI大牛李沐的话来说,如今的大语言模型就像炼丹,需要把一些材料放进丹炉里面,然后用丹方去把丹炼出来。大模型的数据就是炼丹的材料,算力就是炼丹的火力,算法就是炼丹的丹方。但是,道士对于炼丹的技术细节是完全不理解的,就如同我们对于大模型里面的运作机制还没有搞明白一样,我们目前只知道输入和输出,但对于内部的技术机制还在研究中。 也正是因为对机制的完全不了解,2023年3月份,伊隆·马斯克、杰弗里·辛顿等上百位科技人士联合发表公开信,希望暂停训练比GPT-4更强大的AI系统至少6个月,因为他们担心超级智能出现。 虽然最终呼吁没有被响应,但这些人的担心也有一定道理——现在的AI是个黑箱,我们不知道会发生什么。 只是对于我们来说,可能有比暂停研发更保险的方法来控制AI。而且,技术的爆发一旦来临,也不是几封公开信就能拦得住的。 但是,回顾历史我们会发现,在科技史上,原理的研究走在发明之后是常有的事情,莱特兄弟发明飞机之后,可能在30年之后,也就是1930年左右,人类才算是搞清楚了飞机的原理。 技术一般都会走在研究的前面,这是常态,黑箱也没有那么可怕,Don’t Panic! 02 人类担心了几十年的AI觉醒,暂时不会出现 公开信只是今天的人类对于AI的恐慌的表现之一,AI觉醒、AI威胁论,这些在科幻电影和小说中都耳熟能详的桥段,也是轮番登场。 今天的AI,真的会突然觉醒,然后与人类为敌,甚至统治和消灭人类吗? 简单了解了今天的AI的机制,就会知道,科幻小说和电影中经常出现的“天网”“Matrix”,可能暂时是出现不了的。 今天的AI,暂时还不会突然觉醒,也不会想着去统治人类。 就如同我们上文所说,今天的AI的主要输出机制还是“猜测下一个单词或者文字”,从过往的上亿个数据集里,基于统计模式猜测人类可能最喜欢的那个,虽然看起来是生成了看似智能的回答,但是它们并不真正“理解”所处理的信息。还是上面举的例子——“明天可能会下雨”,AI并不理解明天和下雨代表了什么,只是因为“下雨”最常出现在这句话的结尾。 科幻作家特德·姜对此也有自己的观点:AI在说“对不起”的时候,并不理解对不起所代表的歉意和情绪,只是这个词可能是这个场景下最有可能出现的词汇。 还有就是,今天的AI,是一个完全只会响应输出的AI,并没有自主行动的能力或者欲望。如果人类不给它下命令,它什么也不会做。 我们可以假设下,如果它有了自主行为的欲望,并且有了要统治人类的想法,AI现有的能力是不是能够毁灭人类? 首先,AI需要更快速的成长,迅速增强自己的能力,这样才有可能实现自己统治世界的阴谋。 但是,它遇到的第一个问题是,“食物”不够了。训练GPT这样的文本生成大模型,使用的语料数据,是互联网上的数据、出版的书籍、新闻,以及各类高质量的文本数据。但是,其实到今天,人类有史以来积累的文本数据语料,已经差不多都喂给它了,才实现了现在这样的能力“涌现”。 肯定有人想到可以让AI生成数据,其实已经有部分厂商在尝试用人工合成或者AI生成的数据用于大模型的训练,不过,今年7月份《Nature》杂志上的一篇论文显示,用AI生成的数据训练AI,会让模型的能力下降,甚至模型崩溃,开始退化。生成的数据能用,但目前看来效果不显著,而且有风险。 然后还有算力的问题,也就是说,AI能力的提升需要大量英伟达或者其他科技公司生产的用于AI计算的专业显卡。普通显卡也不是不能用,就是效率比较慢,折损也比较大。即使是专业显卡,如何把上万张显卡组合在一起,并且有效减少其中的能力折损,也是现在还没有完全解决的问题。目前比较高效的算力叠加方式是显卡集群。伊隆·马斯克刚刚搭建了他的拥有10张H100显卡的超级集群,这应该是目前世界最强大的AI训练集群。 但是马斯克的公司训练出的大语言模型xAI,能力也很一般,果然只有算力也是不行的。 对于不少公司甚至国家来说,10万显卡集群的难点除了要解决显卡的数据交换问题,还需要一个能稳定的发电设施,单一数据中心供电或者分布式供电,前者对基建能力的要求较高。以马斯克的10万卡集群来算,10万卡集群所需的关键IT部件的总功率约为150MW,相比之下,美国最大的国家实验室超算El Capitan的关键IT功率只有30MW,约为五分之一,可谓是相形见绌。如果粗略计算,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。 这还是目前级别的AI的耗电量,也就是说,影视剧中那种AI突然觉醒,将整座城市的电力一次性消耗的场景很难发生。因为,觉醒后的AI需要的电量可能要远大于一座城市的供电量。 但,即使AI通过某种方式解决了数据、算力和电子的问题,就当下的AI而言,与现实世界的隔阂,仍旧是它很难统治世界的一个主要原因。 今天的AI,其实还不理解真实世界,它最擅长的反而是创作内容,比如文字、图片或者视频。 为什么创作文字是最容易的?因为文字是一维的交流方式,甚至在某种意义上是比较低效的一种交流方式。现实世界反倒是最复杂的,在GPT之后不少专家提出了世界模型的概念,也正是因为这个原因,让AI理解文字是最容易的,理解世界反倒是最难的。 自动驾驶花了不少年,现在才可以在部分城市实现有限的无人驾驶,而机器人要面对的现实情况,比自动驾驶复杂很多,这也是为什么机器人还没有很快将人类取代,而今天最普及的机器人是扫地机器人。这也是为什么,AI没有像人类所担心的那样去取代操作工人,而是差点取代了文字创作者。 现实世界的三维交互,对今天的AI来说,还是一个做不到的任务。 所以,今天的AI无法制造一支机器人部队消灭人类。 如果它真的想毁灭人类,最快的方式是取得各国的武器发射权限,发射核武器。前提是,有人给了下达了这个命令,并且AI遵守了这个命令,还突破了各种实验室和网络的限制,拿到了发射权限。但大家都知道,今天的AI,连脏话和色图都限制了。 但是AI仍然是有机会毁灭人类的,只是是一种让人类自我毁灭的方式。 网络上遍布的虚假新闻、deepfake(深伪技术),已经使人类内部产生了很大的隔阂和理念冲突。 这反倒是目前的AI最有可能毁灭人类的方式——让人类死于内战。但,即使没有AI,人类也是有可能灭亡在自己手里的,所以,放宽心吧……≧ω≦ 03 今天的AI,能取代人类的工作了吗? 既然AI暂时不会觉醒,也暂时不会消灭人类。那我们进入下一个问题。今天的AI,可以取代人类了吗? 或者说,今天的AI,可以取代人类的工作了吗? 简单点说,可以取代一部分工作了,但核心不是取代,而是增强人类。具体的话,则要看具体的工作内容和场景。 我们可以从当下AI主要的几个不同的类型来看今天的AI的技术能力以及成熟度。 今天大家所讨论的AI以及大模型,目前可以简单分为三类:文本生成模型、图片生成模型、视频/音频生成模型。 成熟度较高的文本类AI产品 主要是以OpenAI的 GPT系列为代表,其他包括 Claude、Gemini、Llama、文心一言、通义千问、kimi等国内外的模型产品,技术比较成熟,已经在很多现实的场景落地,进入了商业化。 比如国外的ChatGPT、国内的kimi、豆包,都是用户使用较多的产品,主要功能以文字对话为主,配合上不错的提示词,AI可以帮助你进行文本翻译、文章解读、句子润色、邮件创作等办公或者学习场景下常见的一些文本工作。目前文本类AI的能力,可以认为是一名通才大学生的能力,懂多国语言,语文也不错,但数理化可能会差一些,很擅长去讲解一些概念,但做数学题不太行。 发微博/小红书、回邮件、翻译英文文章、脑暴小伙伴,甚至创作剧本和小说的部分内容,这是笔者的朋友使用文本类AI的一些场景。 已经开始商业化的图片生成产品 图像生成模型,以 Midjourney、Stable Diffusion、DALL-E 3为代表,主要以生成图像为主,也就是所谓的 AI画手,也有了一些商业化场景落地。 一些游戏场景、书籍封面、以及电商商品的演示图都开始使用AI生成的图片,2023年国内比较火的一款应用“妙鸭相机”也是AI生成图片,不过是用图片生成图片。 图片生成产品目前的主要问题是成功率不高,类似于游戏的“抽卡”,需要跟AI对话很多次才能生成一张满意的图片,而且现阶段图片生成AI对于人类的自然语言理解还不如文本生成AI那么好,需要掌握一些写作咒语的技巧才可以。 还在尝试阶段的视频、音乐生成类产品 春节期间最火爆的一款AI产品,无疑就是OpenAI的Sora了,这是一款文本生成视频的AI产品。由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。但是,到现在Sora还没有面向大众开放。 而其他的视频生成产品,都在追赶Sora的路上,Pika、Runway以及国内的可灵、Pixverse、豆包的视频生成模型等,从3秒时长开始慢慢追赶,目前是10秒左右,距离商业落地尚有一段距离。 音频目前主要分为两类:文本自动转为语音的 TTS 类,以及以 Suno、Udio为代表的音乐生成产品。 文本转语音产品已经在很多商业场景落地,AI读小说、给视频配语音甚至AI自动生成播客等。 而音乐生成产品还只是在尝鲜阶段,而它们面临的版权问题,也比文本生成产品要严重得多。 差生工具多,这些工具都可以试试! 大语言模型的竞争,发展到2024年9月,正逐渐变成了科技巨头们如谷歌、微软、Meta和Amazon的竞争。国内目前还是巨头+新秀百花齐放,但可能不久后也会有新的格局变动。毕竟,大模型研发这件事太烧钱了,又迟迟没有见到好的商业落地。 怎么说呢,这个发展倒是完美符合科幻作家们的预测。科技巨头垄断一切,打倒资本巨头! 这次,我们按照热门产品类型,来介绍下国内外AI相关的产品。如果把它们都体验一遍的话,对当下能做什么不能做什么可能有更直观的感受。 但,也没必要都体验啦口胡! ChatGPT https://chatgpt.com OpenAI基于自己研发的大语言模型GPT系列推出的AI聊天产品,是目前世界上用户数最多的AI产品之一,也正是它,引发了全世界对于AI的关注和讨论,以及这一波的AI科技热潮。 ChatGPT背后,是OpenAI推出的一系列GPT模型,目前性能最强大的是GPT-4和GPT-4o。ChatGPT目前主要是文本聊天,无法生成视频或者图片(部分付费用户可以生成图片),但可以识别图片。 OpenAI的文本生成图片的大模型为DALL-E 3,2023年发布,用户只要输入文字描述,就可以生成相应的图片。 OpenAI的文本生成视频的大模型为Sora,在2024年2月发布了部分演示视频,但尚未对普通用户开放。 微软重金投资了OpenAI,两家公司目前是强绑定关系。 Claude https://claude.ai Anthropic公司基于自己的大语言模型Claude系列推出的AI聊天产品,背后的大模型Claude 3.5是目前能力不亚于GPT-4o的文本生成大模型。 这家公司一直宣称”宪政AI”(Constitutional AI),可能是目前在AI与人类对齐方面做得比较好的公司之一。很多人认为Claude很擅长用来做文本生成或者代码生成。