ChatGPT会突然觉醒,成为新的“终结者”吗?

关于万户


万户,《九州幻想》前编辑,《异事悟》编辑,在极客公园做 AI 报道,黄金时代科幻爱好者。

全文约9400字,预计阅读时间19分钟

正文:

1942年,当著名科幻作家阿西莫夫在小说中提出“机器人三定律”时,肯定不会想到,AI和机器人的进展会那么慢,又会那么突然。

说慢的原因是,这都80年过去了,我们仍没有看到他所设想的机器人的落地,2024年最成功的家用机器人,是一台会被狗狗的便便轻易破防的扫地机器人。

但是发展速度却又很突然,2022年11月,ChatGPT上线,不到2年,人类社会如同被突然加速了一样,从硅谷的科技巨头到北京的小学生,人人都在聊AI,AI似乎成为了人类科技的助燃剂,有望帮助我们解决一系列的问题。远到宇宙的征途大海,近到人类梦想依旧的元宇宙,似乎都因为AI的兴起,有了新的可能。

到底,AI是如何从过去的只会围棋比赛和打DOTA,变成了今天的“万能”助理?

以及,终结者真的会到来吗?AI会在某个时刻突然觉醒,统治人类吗?

还有很多人疑惑:为什么感觉AI都火了两年,可是我觉得生活似乎也没有什么改变呢?

今天,我们就来聊一聊,2022 年突然“涌现”出来的AI,会不会毁灭人类,以及它会如何改变我们的未来。

01 突然“涌现”的AI,还仍是黑箱

要理解今天的AI和过往我们认知的AI,或者说影视作品里常见到的万能AI有何区别,需要解释三个词:涌现、Transformer架构和黑箱。

今天媒体在提到AI时,一般会提到另外一个词:大语言模型(Large Language Model),简称LLM。之所以这么叫是因为这些模型的参数都很大,一般起步就是10亿参数起。ChatGPT,如果对其进行技术分类的话,属于文本生成大模型的AI产品。文本生成大模型就是指这个大模型一般生成文字,无法生成图片或者视频。

目前也有专门用于图片生成和视频生成的大语言模型,它们的技术构架与文本生成模型有相似之处,但也有所不同。图片生成模型的产品如Midjourney已经开始商业化,视频生成模型如Sora、可灵等因为生成时间短、人物角色不可控等,还处于尝试阶段。

先说第一个词,Transformer架构,这是目前的文本生成大模型的主要技术基础之一,来源于谷歌于2017年发表的一篇论文《Attention Is All You Need》,这篇本来为了解决和优化机器翻译任务的论文,提出了一个新的神经网络结构——Transformer 架构。它适用于自然处理(NLP)领域,以注意力机制为核心。OpenAI的GPT模型就是基于Transformer架构构建的。

如果简单解释GPT架构的话,就是预测下一个词(Token)。比如给GPT模型一句话“明天看起来要___”,它会试图猜测划线部位应该是什么词语,会给出各种答案,而在人类的反馈训练后,它会倾向于给出“晴天”“下雨”等合理的词汇。

要注意的是,GPT说出“下雨”这个词,不代表它真正理解了这句话,它可能只是在无数种选择中,选择了人类最喜欢的那个回答。

也就是说,AI的理解,是一套高度复杂的模式识别和概率预测过程,基于对大量数据的统计分析,通过识别输入中的模式并生成相应的输出。AI没有真正的感知体验,也没有情感或意识参与其处理过程。

在OpenAI最初的GPT-1和GPT-2中,在基于一定数据和算力的训练下,大模型的表现还算不错,但是没有让大家为之惊喜的地步。很多情况下,系统仍需对特定任务进行调整才能获得好的效果。但到了GPT-3的时候,与GPT-2相比,模型的参数量翻了116倍,是一个拥有1750亿模型参数的大语言模型,模型的能力似乎突然就突破了奇点状态。

也就是说,当参数规模和机器算力达到如此惊人的规模后,AI的能力突然“涌现”了。

  • 模型通过很少的示例就能快速学习并执行新任务。这种能力并非直接训练的结果,而是在处理海量文本数据的过程中自然形成的。
  • 任务泛化。GPT模型能够执行许多它并未经过专门训练的任务,如翻译、摘要、问答等。这种多功能性是在大规模文本处理过程中逐渐形成的。
  • GPT模型还展现出了一定程度的推理能力。它能够进行逻辑推理和常识推理,这些能力远远超出了简单的文本预测。
  • 有了基础的“创造性”,GPT模型能够生成原创内容,如故事、诗歌,甚至是计算机代码,这不仅仅是对已有内容的重组,而是对语言模式的深入理解和灵活运用的结果。

简单说来,这次的“涌现”就是大力出奇迹。

也就是说,数据量、算力、模型规模足够大之后,AI的能力确实会提升,这也是目前各家AI研发公司努力的方向。大模型的参数量在不断提升,比如Meta(前Facebook)的Llama3大模型参数就达到了405B,也就是4050亿参数的规模。规模如此之大,需要用到的GPU显卡数量也在不断增加。大家所熟知的科技狂人——伊隆·马斯克刚刚建立起了他的10万显卡算力集群,就是为了用更大的算力和参数量来训练和提升他旗下的公司xAI研发的大模型。

虽然最终呼吁没有被响应,但这些人的担心也有一定道理——现在的AI是个黑箱,我们不知道会发生什么。

只是对于我们来说,可能有比暂停研发更保险的方法来控制AI。而且,技术的爆发一旦来临,也不是几封公开信就能拦得住的。

但是,回顾历史我们会发现,在科技史上,原理的研究走在发明之后是常有的事情,莱特兄弟发明飞机之后,可能在30年之后,也就是1930年左右,人类才算是搞清楚了飞机的原理。

技术一般都会走在研究的前面,这是常态,黑箱也没有那么可怕,Don’t Panic!

02 人类担心了几十年的AI觉醒,暂时不会出现

公开信只是今天的人类对于AI的恐慌的表现之一,AI觉醒、AI威胁论,这些在科幻电影和小说中都耳熟能详的桥段,也是轮番登场。

今天的AI,真的会突然觉醒,然后与人类为敌,甚至统治和消灭人类吗?

简单了解了今天的AI的机制,就会知道,科幻小说和电影中经常出现的“天网”“Matrix”,可能暂时是出现不了的。

今天的AI,暂时还不会突然觉醒,也不会想着去统治人类。

就如同我们上文所说,今天的AI的主要输出机制还是“猜测下一个单词或者文字”,从过往的上亿个数据集里,基于统计模式猜测人类可能最喜欢的那个,虽然看起来是生成了看似智能的回答,但是它们并不真正“理解”所处理的信息。还是上面举的例子——“明天可能会下雨”,AI并不理解明天和下雨代表了什么,只是因为“下雨”最常出现在这句话的结尾。

还有就是,今天的AI,是一个完全只会响应输出的AI,并没有自主行动的能力或者欲望。如果人类不给它下命令,它什么也不会做。

我们可以假设下,如果它有了自主行为的欲望,并且有了要统治人类的想法,AI现有的能力是不是能够毁灭人类?

首先,AI需要更快速的成长,迅速增强自己的能力,这样才有可能实现自己统治世界的阴谋。

但是,它遇到的第一个问题是,“食物”不够了。训练GPT这样的文本生成大模型,使用的语料数据,是互联网上的数据、出版的书籍、新闻,以及各类高质量的文本数据。但是,其实到今天,人类有史以来积累的文本数据语料,已经差不多都喂给它了,才实现了现在这样的能力“涌现”。

然后还有算力的问题,也就是说,AI能力的提升需要大量英伟达或者其他科技公司生产的用于AI计算的专业显卡。普通显卡也不是不能用,就是效率比较慢,折损也比较大。即使是专业显卡,如何把上万张显卡组合在一起,并且有效减少其中的能力折损,也是现在还没有完全解决的问题。目前比较高效的算力叠加方式是显卡集群。伊隆·马斯克刚刚搭建了他的拥有10万张H100显卡的超级集群,这应该是目前世界最强大的AI训练集群。

但是马斯克的公司训练出的大语言模型xAI,能力也很一般,果然只有算力也是不行的。

对于不少公司甚至国家来说,10万显卡集群的难点除了要解决显卡的数据交换问题,还需要一个能稳定的发电设施,单一数据中心供电或者分布式供电,前者对基建能力的要求较高。以马斯克的10万卡集群来算,10万卡集群所需的关键IT部件的总功率约为150MW,相比之下,美国最大的国家实验室超算El Capitan的关键IT功率只有30MW,约为五分之一,可谓是相形见绌。如果粗略计算,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。

这还是目前级别的AI的耗电量,也就是说,影视剧中那种AI突然觉醒,将整座城市的电力一次性消耗的场景很难发生。因为,觉醒后的AI需要的电量可能要远大于一座城市的供电量。

但,即使AI通过某种方式解决了数据、算力和电子的问题,就当下的AI而言,与现实世界的隔阂,仍旧是它很难统治世界的一个主要原因。

今天的AI,其实还不理解真实世界,它最擅长的反而是创作内容,比如文字、图片或者视频。

为什么创作文字是最容易的?因为文字是一维的交流方式,甚至在某种意义上是比较低效的一种交流方式。现实世界反倒是最复杂的,在GPT之后不少专家提出了世界模型的概念,也正是因为这个原因,让AI理解文字是最容易的,理解世界反倒是最难的。

自动驾驶花了不少年,现在才可以在部分城市实现有限的无人驾驶,而机器人要面对的现实情况比自动驾驶复杂很多,这也是为什么机器人还没有很快将人类取代,而今天最普及的机器人是扫地机器人。这也是为什么,AI没有像人类所担心的那样去取代操作工人,而是差点取代了文字创作者。

现实世界的三维交互,对今天的AI来说,还是一个做不到的任务。

所以,今天的AI无法制造一支机器人部队消灭人类。

如果它真的想毁灭人类,最快的方式是取得各国的武器发射权限,发射核武器。前提是,有人下达了这个命令,并且AI遵守了这个命令,还突破了各种实验室和网络的限制,拿到了发射权限。但大家都知道,今天的AI,连脏话和色图都限制了。

但是AI仍然是有机会毁灭人类的,只是是一种让人类自我毁灭的方式。

网络上遍布的虚假新闻、deepfake(深伪技术),已经使人类内部产生了很大的隔阂和理念冲突。

这反倒是目前的AI最有可能毁灭人类的方式——让人类死于内战。但,即使没有AI,人类也是有可能灭亡在自己手里的,所以,放宽心吧……≧ω≦

03 今天的AI,能取代人类的工作了吗?

既然AI暂时不会觉醒,也暂时不会消灭人类。那我们进入下一个问题。今天的AI,可以取代人类了吗?

或者说,今天的AI,可以取代人类的工作了吗?

简单点说,可以取代一部分工作了,但核心不是取代,而是增强人类。具体的话,则要看具体的工作内容和场景。

我们可以从当下AI主要的几个不同的类型来看今天的AI的技术能力以及成熟度。

今天大家所讨论的AI以及大模型,目前可以简单分为三类:文本生成模型、图片生成模型、视频/音频生成模型。

成熟度较高的文本类AI产品

主要是以OpenAI的 GPT系列为代表,其他包括 Claude、Gemini、Llama、文心一言、通义千问、kimi等国内外的模型产品,技术比较成熟,已经在很多现实的场景落地,进入了商业化。

发微博/小红书、回邮件、翻译英文文章、脑暴,甚至创作剧本和小说的部分内容,这是笔者的朋友使用文本类AI的一些场景。

已经开始商业化的图片生成产品

图像生成模型,以Midjourney、Stable Diffusion、DALL-E 3为代表,主要以生成图像为主,也就是所谓的 AI画手,也有了一些商业化场景落地。

一些游戏场景、书籍封面、以及电商商品的演示图都开始使用AI生成的图片,2023年国内比较火的一款应用“妙鸭相机”也是AI生成图片,不过是用图片生成图片。

图片生成产品目前的主要问题是成功率不高,类似于游戏的“抽卡”,需要跟AI对话很多次才能生成一张满意的图片,而且现阶段图片生成AI对于人类的自然语言理解还不如文本生成AI那么好,需要掌握一些写作咒语的技巧才可以。

还在尝试阶段的视频、音乐生成类产品

春节期间最火爆的一款AI产品,无疑就是OpenAI的Sora了,这是一款文本生成视频的AI产品。由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。但是,到现在Sora还没有面向大众开放。

而其他的视频生成产品,都在追赶Sora的路上,Pika、Runway以及国内的可灵、Pixverse、豆包的视频生成模型等,从3秒时长开始慢慢追赶,目前是10秒左右,距离商业落地尚有一段距离。

音频目前主要分为两类:文本自动转为语音的 TTS 类,以及以Suno、Udio为代表的音乐生成产品。

文本转语音产品已经在很多商业场景落地,AI读小说、给视频配语音甚至AI自动生成播客等。

而音乐生成产品还只是在尝鲜阶段,而它们面临的版权问题,也比文本生成产品要严重得多。

差生工具多,这些工具都可以试试!

大语言模型的竞争,发展到2024年9月,正逐渐变成了科技巨头们如谷歌、微软、Meta和Amazon的竞争。国内目前还是巨头+新秀百花齐放,但可能不久后也会有新的格局变动。毕竟,大模型研发这件事太烧钱了,又迟迟没有见到好的商业落地。

怎么说呢,这个发展倒是完美符合科幻作家们的预测。科技巨头垄断一切,打倒资本巨头!

这次,我们按照热门产品类型,来介绍下国内外AI相关的产品。如果把它们都体验一遍的话,对当下能做什么不能做什么可能有更直观的感受。

但,也没必要都体验啦口胡!

04 作为一个普通人,怎么才能不会被AI取代?

最简单,用起来。根据自己的需求,更多地去尝试各种AI的能力。

对敌人越了解,越不会被敌人打败。还有一句话,你不会被AI取代,只会被会用AI的人类取代。

先学会跟AI对话

人与人沟通尚且很困难,更何况人类与AI呢?用好AI的第一步,是学会跟AI说话。

如果是半年前写这篇文章,我一定会贴一大段讲解如何写好prompt(跟AI对话的提示词)的攻略给你,但现在随着AI的能力提升,已经不需要那么做了。

Claude工程师前不久曾在一期播客里聊到怎么跟AI对话、怎么写出好的prompt,我稍微提炼了一些关键点:

  • 很多时候,需要做的只是写一个非常清晰的任务描述,而不是尝试构建抽象的东西。
  • 你需要能够把事情讲得足够清楚,让模型明白你的任务是什么,并且擅长思考和描述概念。
  • 你得把自己脑海中所有你知道但模型不知道的东西整理清楚,然后写下来。毕竟,你不说的话,AI怎么会知道呢?(≧ω≦)
  • 很多人都没有理解什么是提示词。很多人看到一个输入框时,会把它当成一个谷歌搜索框,输入几个关键词。毕竟,你也不会这么跟同事交流,对吧?
  • 模型可以理解复杂的信息,不需要过度简化。

想一下,你会怎么跨部门跟同事沟通、怎么跟你的实习生沟通,或者跟上门维修空调师傅沟通事情,跟AI沟通的时候也这么干就可以了!

哪里痛,就在哪里用!

很多人使用AI产品的第一个困惑一般是,我能用它做什么?

不用焦虑,秉承一个简单原则:哪里痛,就用在哪里!英文不好但又需要去写英文邮件,用起来!想看英文深度报道,让AI帮你翻译。对一些科技名词不了解、写大纲卡住了、想了解一个陌生的概念等等,都可以。

甚至使用电脑时遇到了困惑,也可以第一时间打开AI咨询,就比如,我刚帮我的一位策划朋友解决了他的某个很奇怪的需求:

如果我想打几个字就生成一个这几个字的图片,有什么最快的方式吗?因为有很多行,不想手动截图。

我是这么和kimi交流的:

User: 我想一个cmd批处理文件,作用是:把我的一个txt文件的每一行文字都保存为单独的图片。

Kimi: 创建一个批处理文件来实现你的需求,需要使用到一些外部工具,比如convert命令,它是ImageMagick软件包的一部分,用于图像处理。以下是一个简单的批处理脚本示例,它将读取一个文本文件,并将每一行保存为单独的图片。
1. 首先,确保你的电脑上安装了ImageMagick,并且convert命令可以在命令行中使用。
2. 创建一个批处理文件,比如命名为text_to_images.bat,并将以下代码复制进去:
--------------------------------------------------------------
Plain Text
@echo off
setlocal enabledelayedexpansion

:: 设置文本文件和输出目录
set "input_file=your_text_file.txt"
set "output_dir=images"

:: 创建输出目录
if not exist "%output_dir%" mkdir "%output_dir%"

:: 读取文本文件的每一行
for /f "tokens=* delims=" %%a in (%input_file%) do (
    set "line=%%a"
    :: 将每一行文本转换为图片
    convert -background white -fill black -font Arial -pointsize 24 label:"!line!" "%output_dir%/line_!line!.png"
)

echo Done.
endlocal
--------------------------------------------------------------
3. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
4. 双击运行text_to_images.bat,它将读取文本文件的每一行,并将每一行保存为一个名为line_<line_content>.png的图片。
请注意,这个脚本使用了label:选项来创建文本标签,并且设置了背景颜色为白色,文本颜色为黑色,字体为Arial,字体大小为24。你可以根据需要修改这些设置。
如果你的文本包含特殊字符或者非英文字符,可能需要调整字体和编码设置以正确显示文本。 

User: 还有其他方式吗,不安装第三方工具 
Kimi: 如果你不想安装第三方工具,可以使用Windows自带的PowerShell来实现这个功能。以下是一个使用PowerShell将文本文件的每一行保存为图片的示例:
1. 打开记事本或任何文本编辑器,并将以下代码复制进去:
--------------------------------------------------------------
PowerShell
$inputFile = "your_text_file.txt" # 替换为你的文本文件路径
$outputDir = "images" # 输出目录

if (-not (Test-Path $outputDir)) {    
New-Item -ItemType Directory -Force -Path $outputDir
}

$text = Get-Content $inputFile
$text | ForEach-Object {    
  $line = $_    
  $image = New-Object System.Drawing.Bitmap 800,200    
  $graphics = [System.Drawing.Graphics]::FromImage($image)    

$graphics.FillRectangle([System.Drawing.Brushes]::White,0,0,800,200)   
  $font = New-Object System.Drawing.Font "Arial",12    
  $solidBrush = 
[System.Drawing.SolidBrush][System.Drawing.Color]::Black    
  $graphics.DrawString($line, $font, $solidBrush, 10,10)    
  $graphics.Dispose()    
  $image.Save((Join-Path $outputDir 
"line_$($text.IndexOf($line)).png"))    
  $image.Dispose()
}
--------------------------------------------------------------
2. 将your_text_file.txt替换为你的文本文件的路径,images是你想要保存图片的目录。
3. 将文件保存为.ps1扩展名,例如text_to_images.ps1。
4. 右键点击保存的.ps1文件,选择“使用PowerShell运行”。
这个脚本使用.NET Framework中的System.Drawing命名空间来创建和保存图片。它会读取文本文件的每一行,并将其保存为一个PNG图片。
请注意,这个脚本在某些情况下可能需要调整,例如调整图片大小、字体大小或文本位置。此外,如果你的文本文件非常大,这个脚本可能会消耗大量内存。 

你看,我所需要做的就是把我的需求说清楚,甚至还能“讨价还价”。

实在还不知道怎么用,先看这四个案例!

如果你确实没啥痛点,不妨试试这几个场景,没准会有一些小惊喜。

翻译

这是笔者使用AI最多频率的功能。在网页插件沉浸式翻译的帮助下,每天阅读大量的科技资讯,甚至直接阅读一些英文小说。

学习助手

AI很适合对一些陌生名词或者科技知识进行解释,你可以要求它向一名高中生或者初中生解释知识点。在你想了解一门新的技术或者领域的时候,尽可能清晰地向AI描述清楚,它能给你不少帮助。

还可以用来进行论文解读,尤其是长篇的英文论文,但是请注意,为了保证你真正读懂一篇论文,你可以试着让AI来提问,而不只是让AI来总结。毕竟,能输出的知识,才是真正掌握了的知识。

还有语言学习,很多人把ChatGPT当做自己的外语家教,你也可以试试。

创作助手

文章思路搭建、剧本大纲构思、图片创意生成,甚至某个场景的详细描写等等,都可以试着用AI来完成。

但是,不要把创作的权力交给AI,它可以充当你的创意助手、构思讨论小伙伴,而不是你的代笔。

工作助理

Word中某个格式怎么调整,Excel中忘记了某个公式了,常见的一个英语词汇忘记了,甚至回复邮件的时候想让语气变得更和善、或者态度更专业一些……

这些都可以试着让AI帮你解决,即使不能解决,也能给你提供一些有用的思路。

那些重复性很高、你一直很困扰、一直想优化的事情,交给AI试一下,没准有惊喜。

不管怎样,先用起来。

参考资料:

  1. 1982年,弗诺·文奇在卡内基梅隆大学召开的美国人工智能协会年会上首次提出“技术奇点”这一概念,认为突破奇点后将会有超级智能的出现。 ↩︎
  2. 李沐上海交大演讲全文 ↩︎
  3. 马斯克、杰弗里·辛顿联名公开信全文:https://www.thepaper.cn/newsDetail_forward_22490961 ↩︎
  4. 特德姜:人工智能会创造真正的艺术吗? ↩︎
  5. Nature 论文:用 AI 生成的数据训练 AI,会让大模型崩溃   ↩︎
  6. DeepMind科学家:50个AI提效用例详解,工作中我是这么用AI的
    ↩︎
  7. 特德姜:人工智能会创造真正的艺术吗? ↩︎
  8. DeepMind科学家:50个AI提效用例详解,工作中我是这么用AI的 ↩︎

审校:东方木、于苏斯

Share

One Response

Leave a Reply

Your email address will not be published. Required fields are marked *