看理想
AI经济学:像经济学家一样思考(增补版)
梁捷
你好,我是梁捷,很久不见。这次和大家久别重逢,想要和大家聊一个全新的主题,AI经济学。这档节目一般每周更新一集,作为我的《生娃、养老、打工人:像经济学家一样思考》的增补版推出。我的计划里,这档节目会有20多集,再加上不定期的番外,估计和大家至少能一直聊到明年过年。这样算下来,《生娃、养老、打工人:像经济学家一样思考》一共就会有一百六七十集的内容了,我也没想到一个节目会有这么长的生命力、会做这么多集,也非常感谢大家多年来的一直陪伴。
先要跟大家汇报,我自己的专业叫做经济思想史。这是一门面向过去的学问。平时我主要的工作是研究像亚当·斯密、李嘉图、凯恩斯这样一些历史人物。但这次跟看理想合作,介绍AI经济学,这是一门面向未来的学问。我自己当学生的时候是从来没有听过这门课的,也不知道现在有没有经济学家开设类似课程。所以这档节目对我来说也是一个不小的挑战,但是我觉得这很重要。我把这一系列的内容放在《生娃、养老、打工人》这样的框架下面,也是认为今天的经济学家已经绝对不能忽略AI给经济学带来的众多变化。
那AI很早就有了,而且不同领域一直有人在用。但是在我的心目当中,AI大爆炸它有一个非常具体的时间,那就是2022年的11月,那时候我第一次接触到ChatGPT。大家有兴趣的话可以去查,我在2022年底为看理想录制的新年寄语里面就提到说,这一年我最大的惊喜就是看到了ChatGPT。那个时候我已经非常清晰地感受到AI的潜力,但是它到底能够在多大程度上改变我们的生活,那时候还看不清楚。
三年多过去了,AI取得了巨大的进步,AI对于我们生活的影响也有了一点眉目。当然对于AI,我们的认识和了解还远远不够,因为它发展得实在太快,一直有让我们出乎意料的突破。所以我们对于AI的认识也一直要调整。不过我等不及了,也不等了,当下就尝试着对AI这三年多的发展和影响做一番分析。于是,就有了这档节目。
AI经济学它当然是一门开放的学问。在这个节目里,我还是会跟大家一起读一些论文,分享一些不成熟的想法。我很愿意一边讨论一边修正自己的观点。再过两年,我们今天讨论的很多内容,也许会被证明是毫无意义的,也许会有一些内容被证明是有一些预见性的。但是我相信,无论未来看到的怎样的结果,我们现在这样的讨论它的过程本身是有价值的。它能让我们对于AI的认识跟着AI本身的进步一起进步。
那今天是发刊词,我想在这期节目里跟大家把一个最基本的问题说清楚,那就是AI是什么。这个问题听起来很简单,AI是什么,但其实它非常非常难。因为它既是一个技术问题,也是一个哲学问题,还是一个社会问题。

过去几十年,人们怎么理解AI

我们可以从20世纪最重要的数学家、密码学家、计算机之父图灵(Alan Turing)说起。有人可能看过2014年的电影《模仿游戏》,这部电影主要是讲图灵他在二战期间破译德军密码的故事。如果你没有看过电影,你至少应该听说过一个都市传说。比如你拿起苹果手机或者苹果电脑,你会看到苹果的标志是一个被咬过一口的苹果,据说这就是为了纪念图灵。因为图灵42岁的时候自杀身亡。当时他对一个苹果注射了氰化物,咬了一口,当场就去世了。所以苹果见证了一个天才学者的离世。当然了,这是一个都市传说大家听听就算了。
电影《模仿游戏》海报
图灵真正重要的贡献,是他对于智能问题的思考。1950年,图灵发表了一篇论文,叫作“计算机器与智能”。这篇论文被公认为是人工智能的奠基性文献。图灵在这篇文章里问了一个根本性的问题,那就是机器它能不能思考?这个问题他很难直接回答,因为“思考”这个概念模糊不清,什么叫做思考呢?会做加减法,这算不算思考呢?图灵说这个肯定不算,我们换一种办法。我们先不要问机器能不能思考,我们换一个可以操作的问题,那就是机器它能不能在一种叫做“模仿游戏”的测试里骗过人类。
什么是模仿游戏呢?它很简单,就是一个评审员坐在一个房间里,房间外面有两个对话者,一个是真人,一个是机器。评审员他就通过文字跟两边对话,就是打字或者传纸条,他问什么问题都可以。这个很关键,问什么问题都可以。评审员跟两边聊完以后,如果评审员分不清楚哪个是人、哪个是机器,那就可以说这台机器已经具备了某种意义上的“智能”。这就是我们通常所说的图灵测试。
图灵测试它非常巧妙,因为它把人工智能是否存在的哲学问题变成了一个工程问题。哲学问题很难有结论,但工程问题可以有明确的结论,清清楚楚。所以从1950年一直到2020年吧,AI领域基本上都在图灵的概念框架里发展。但是在很长一段时间里,AI的进展并不大。记得在1990年代就有一些聊天机器人软件,但人们只有在最无聊的时候才会跟它聊天,因为知道它是机器,也聊不出什么。2014年,微软推出过一个中文聊天机器人,叫做小冰,火了一阵。但是大家很快就发现,很多人当时就用粗话脏话跟它聊天,很快也把它训练成一个满口脏话的机器人。这个机器人还会写诗,但是呢都是机器味很重的诗,读来也没有什么意思。
这些聊天机器人大多数我都用过,但是我兴趣不大,因为我觉得它们距离图灵测试非常非常远。在大语言模型出现之前,我认为没有任何机器接近通过图灵测试的水平。但是2022年ChatGPT横空出世,当时我就震惊了。我和很多人一样就认识到,图灵测试结束了,AI已经轻松地跨过这个门槛了。
那么有没有人真正用AI做一下图灵测试呢?2025年4月,加州大学圣地亚哥分校的研究者Cameron Jones和Benjamin Bergen他们做了一项非严格的图灵测试实验,最终发表了一篇论文,叫做“大语言模型通过了图灵测试”。当时他们就安排评审员跟两边对话,一边是真人,一边是大语言模型,让评审员判断哪边是人——这就是标准的图灵测试的设计。这时候ChatGPT4.5它被指示,你要扮演一个普通人——这是它的人设。当它作为一个普通人的人设跟人聊天,最后被评审员认为是真人,它这个比例高达73%,比真人被认为是真人的比例还要高。换句话说,评审员宁可相信AI是人,也不相信真人是人。
所以这是历史上第一次有AI模型在严格的图灵测试环境里通过测试。也就是说,图灵测试真的结束了。
但是,图灵测试结束了,并不等于证明了“AI可以思考”。所以要进一步讨论这个问题,涉及到著名的哲学家塞尔(John Searle)。
1980年,塞尔发表了一篇论文,叫做“心灵,大脑与程序”。在这篇文章里,塞尔提出了一个非常著名的思想实验叫做“中文屋”。这个思想实验的目的也很明确,就是要反驳图灵测试,反驳“通过图灵测试就等于会思考”这样的一种观点。
中文屋它是这样设计的。想象一个完全不懂中文的人,他被关在一个房间里。屋子里有一本或者很多本非常详细的英文规则手册。外面的人就把写着中文的问题,就一张纸条啊,从窗口塞进来。关在这个中文屋里的这个人他不懂中文,但是他可以查手册。这个手册里没有字典。手册里面只有语法,就是手册里面告诉他,你看到什么样的中文符号,你就拿什么样的对应的中文符号,一种组合,作为回应。就是你收到什么样的问题,你就写什么样问题。于是他就严格按照手册来操作,看到什么问题,他就从手册里面找到对应的怎么回答,把回应递出窗外。窗外的人收到回应,发现他回答得头头是道,于是断定屋里的这个人懂中文。
但屋里的这个人他真的完全不懂中文啊,他就是在做符号变换。他是按照手册里的规则,把一组符号变换成为另外一组符号。所以塞尔由此论证,单纯的符号操作不可能产生真正的“理解”。哪怕你的程序复杂到能够骗过所有的外人,但是你依然只是在操作符号,你没有触及意义本身。也就是说,中文屋里的人,他永远不会懂中文。我以前读哲学的时候,读到“中文屋”的思想实验,那是在大语言模型出现之前。我从来没想过中文屋它真的会变成现实。
由“中文屋”的思想实验,就引出了“强AI”与“弱AI”两个概念,我觉得非常重要。所谓的弱AI,指的就是这个机器它可以模拟思考,它假装在思考,但是机器并不理解自己在做什么,因为它没有心智。比如之前的围棋AI,AlphaGo,它在围棋上已经彻底打败人类了,但是它并不知道自己在做“下围棋”这件事情,当然它也体会不了人类下围棋时感受到的各种喜怒哀乐。所以跟中文屋一样,AlphaGo它是一种弱AI。
但强AI就不一样了。强AI是说,一个机器在运作的时候,它本身已经具备了心智,它知道自己在干什么,它真的能够理解自己在干什么。我们在科幻电影里看到的各种机器人那都属于强AI,它们已经有自我意识了,已经有喜怒哀乐了。所以弱AI和强AI它有本质区别,甚至可以说有天壤之别。从弱AI到强AI,这一步是极难跨过去的。
所以当年中文屋的这篇论文一发表,整个学界就吵翻了。最常见的一种反驳叫做“系统回应”。就是有很多批评者说,中文屋里的那个人他本身确实不懂中文。但是,屋里的这个人,加上他手里的手册,再加上整个房间这个“系统”,它作为一个整体,它可能是懂中文的。就是里面这个人他不懂中文,但是你作为一个系统。他是懂中文的。
塞尔不同意这个反驳。他说,就算这个人非常厉害,他把整本手册都背下来了,把整个系统都装到一个人的脑子里,他可以走在街上一边走一边按照规则做符号变换,他不需要这个屋子了,这个人他依然不懂中文。所以你说是系统还是人,这个没有区别,重要的是,他只是会中文,而不是懂中文,这两者的意义是完全不同的。
在大语言模型出现之前,我一直是中文屋的粉丝,我觉得这个思想实验实在太精彩。而且中文屋这个思想实验在过去那么多年,它一直是反对强AI最有力的武器。到了今天,大语言模型出来以后,这个争论重新被点燃了。
有一种流行的看法认为说,中文屋的论证已经被弱化。因为今天大语言模型毫无疑问它就是一个中文屋。它的规则手册就是无比复杂的万亿的参数,远远超出我们的理解。我们并不知道ChatGPT它在黑箱里面它是怎么运作的,它是怎么理解语言文字的,我们不知道,但是我们都知道训练ChatGPT的过程,它读过的中文文字,那比我要多得多。我们每个人都是通过有限的阅读,我读的中文虽然也不少,但数量是有限的,也使用了有限的中文;我写过一些文章,但也是有限的,在这个过程当中,我觉得我学会了中文。而AI它学习了比我读的多得多的真实语料,所以它对语言的理解可能已经不只是表层的符号操作,可能已经达到了某种“功能等价”的理解。今天,AI 它已经通过图灵测试了,我们已经没有办法把它和一个懂中文的人区分开来了,那这时候我们继续说AI“不理解中文”,它只会写中文、说中文,但它不理解中文,但你这样说还有什么意义呢?那只是词汇上的口舌之争了。
但是也有人非常坚定地支持塞尔的立场。那我们这里再提一个大名鼎鼎的哲学家,那就是乔姆斯基。乔姆斯基是当代最重要的语言学家,他一直主张,我们之所以能学会语言,不管是英文还是中文,是因为我们头脑当中有一种先天语言结构,天然适合说话,而机器它不具备这种结构。所以乔姆斯基他对于大语言模型的态度一直是很冷淡的。
2023年3月,乔姆斯基在《纽约时报》上发表了一篇文章,题目就叫做“ChatGPT的虚假承诺”。乔姆斯基在文章里说,ChatGPT这一类的模型,它本质上只是一台“庞大的统计引擎”。它们依靠海量数据里形成的识别模式来预测下一个词。也就是说,AI或者ChatGPT它就是一个机器,它会一个一个地往外蹦词。它不会说话,只会蹦词。所以它跟人类大脑获取语言、理解世界的方式是完全不同的。人类学习语言只需要很少的样本就能学会,一个小孩他几岁就学会说话了——不管学英语还是说中文,他只要几岁,只接触了有限的语言,他就学会了——靠的是先天的语法结构和因果推理。而机器学习语言,它要靠海量的数据,靠的是统计相关。这两种学习是完全不同性质的事情。
我个人是不太同意乔姆斯基观点的,当然了,我也能感受到他的不安,因为他一辈子的语法理论在很短的时间里面就被ChatGPT给推翻了。一个语言学家面对ChatGPT的无力感,就像围棋棋手面对AlphaGo,这是一模一样的。
当然了,我觉得我们还是不妨多听听乔姆斯基这样的批评。因为大语言模型它在语言能力之外确实还存在很多问题,甚至是深层思考模式上的问题。比如它会在一些简单的数学题上犯小学生都不会犯的错误,给我们提供了很多很多笑料。又比如它有很严重的幻觉,会一本正经地编造不存在的文献。这个也已经有很多人讨论过了,从ChatGPT一出现就存在,这几年有所改进,但依然存在。这些幻觉很可能在很长一段时间里它都会存在,这是它的一个深层问题,很难解决。
回顾过去几十年里关于AI的哲学讨论,它背后有两条路线的对抗,我觉得这也很重要。一条叫做符号主义。符号主义认为智能的本质是符号操作,是规则系统,是逻辑推理。这一派在历史上曾经一度占优,乔姆斯基就属于这条路线。
而另一条路线呢,叫做连接主义,它认为智能产生于大量简单单元的相互连接和统计学习,所以连接主义它认为智能它是“涌现”出来的。连接主义它最大缺陷是没有办法讲清楚“涌现”是什么。什么是涌现?怎么涌现?哈耶克有一本书叫做《感觉的秩序》,我是非常喜欢的。这本书讲的就是连接主义。今天的大语言模型也属于连接主义这条路线。所以这两条路线在AI的整个发展历史上反复较量,前几十年是符号主义占上风,但最近的十几年肯定是连接主义全面胜出了。
回到前面所说的强AI和弱AI的讨论。大语言模型它肯定是一种弱AI,而且它已经大获成功。AI作为一种实用工具,在翻译、写作、编程、设计等等各个领域产生了巨大的实际价值,这点应该没有人会否认。它的能力扩展得太快,它所表现出来的“理解”能力在很多场合下已经跟人类的理解难以区分。所以强AI弱AI的争论也比以往更为激烈。那现在大家非常关心的一个问题是,AI能否产生自我意识?能否从弱AI转变成强AI?看起来这只是很小的一步,但这一小步,可能与未来的人类命运相关。我个人认为,目前并没有强AI,未来也很难有,当然了,我也随时准备接受新的证据,被未来的AI打脸。

AI给我的几次震撼

讲完哲学,我想跟大家再说几件我自己亲身经历的事情。这些事情让我对AI的能力有了更具体的、不是抽象的认识。
我第一次受到震撼,是用AI做翻译。因为我做经济思想研究,经常要看些外文文献。我自己的外语很差,自己又懒惰,不想好好学外语。所以我自己有一长串“想读但没时间读”的外文书目,有成百上千册的外语电子书,下载以后就放在那里。几年时间过去,有时候自己也都忘了。过去有时候我会用DeepL做一点翻译,但是它翻译质量不怎么样,最多也就是应急的时候看一眼。但是AI出来以后,我开始尝试让它翻译一些大部头的学术著作,它很快就翻完了。而且我认真读过译文,觉得翻译质量相当不错,肯定比绝大多数研究生要翻译的来得好。
要知道,翻译是一件很痛苦的事,做过翻译的都知道。而且你翻完一本书,你还要接受豆瓣审判。豆瓣的所有书目条目下面,第一则留言一定是这本书翻译得怎么样,要是翻译得不好,那我还不如去看原版。但问题在于,我们面对的文本是千奇百怪的,所以翻译是一项很难的工作。比如,哪怕你英语很好,你读一个18世纪学者用英语写的书,那就跟今天的书很不一样;或者你如果读过一个德国人用英语写的书,那你也会觉得很奇怪,这个语言实在是太别扭了;然后如果你读的这个书它涉及哲学,或者涉及某种特定的文化,那语言又会变得完全不一样。
我就尝试着把各种文本扔给AI,它都表现得非常非常稳定,都能做到信达雅。有很多的经典文本,它翻译的质量都比商务印书馆的译本质量还要好。我又尝试着把一些什么法文的、日文的书扔给它,它还是表现得很好。所以有一段时间,我家里的AI就一直在做翻译,一本接一本地翻。法文的翻完翻日文的,日文的翻完翻西班牙文的。到后来发现,我文件夹里特别想读的那些书都快翻完了。而我自己的阅读速度远远跟不上AI的翻译速度,一本书它翻完了,但是我自己还远远没有读完。这时候我才让它停下来。
这件事情让我第一次认识到,AI它不只提供一项具体的技能,而是要改变我获取信息、开展研究的整个流程。以前我面对的瓶颈是阅读速度或者外语限制,我不可能去读西班牙文的著作。但是现在这些都不是瓶颈了。新的瓶颈变成了我自己思考能力和判断能力,我需要多想而不是苦干,因为AI它还不能帮我多想,但是整个流程转变它已经是一种根本性的转变了。
另一个震撼是用AI画图。我原本不大有设计的需求,所以就不大用AI画图。但今年年初,我主编了一本教材,叫做《中外经济思想比较》。这本书最后它的封面是用AI设计的。倒不是说出版社的美工不够专业。但美工毕竟是人,我自己作为甲方让美工反复改稿,自己也会有点过意不去。而这本书另外一位主编,ta对封面就提出了很多要求,我就说,干脆让AI来改吧。因为AI它可以说是任劳任怨,十分钟就可以出一张图,一遍不行就两遍,两遍不行就三遍,最后反反复复改了几十遍,一直到最后做出了一个让所有人都觉得挺满意的封面。有同事把它发到朋友圈,我看到有不少人留言说这个封面很好看,书还没看到,但我看到这个封面挺不错的。这时候我心里就感觉很复杂,因为这种作品和创作者之间的脱钩,是过去任何一种工具都没有带来过的。
那还有一个震撼,那就是用AI写代码。我自己做实证研究的时候,有时候要用一个叫做Stata的软件来跑数据,做经济学研究的听众肯定都知道。有一次学生给我交作业,也涉及到一些实证研究。我觉得他做的有一些问题,我就把原始数据直接塞给AI,让它帮我写代码做一个回归分析。它很快就用我很熟悉的Stata语法就把代码写完了,从数据清洗到回归到画图到分析,一气呵成。
这时候我想就考考它,我就跟它说,那我自己电脑上没装Stata,我不知道你的代码对不对啊,怎么办呢?它马上就回复说没问题。它说我可以调用Python工具模拟一个Stata的环境,我直接把回归结果展示给你看,再把图画出来给你看。很快我就看到它把回归做出来,把图画出来,我自己又把它的代码跑了一遍,发现有两个错误。这时候我继续就跟它说,我也没说错在哪里,我就跟它说,这个代码反正有错,你自己看着办,你自己要把它给修复。结果它真的很快自己就把错误给修正好了,再跑一遍,结果是完全正确。这一整套的流程在一个小时内就完全完成了。如果换成我自己手动来写、手动来调,这个过程可能要一两天。
所以从这一刻开始,我意识到,我大概再也不需要写代码了。这种感觉真的是很复杂。一边是解放,一边是失落。以前我挺佩服那些写代码又快又好的同事,很多人我知道他们还一直维持自己的手感,三天两头要写代码,但是今天AI已经完全可以取代这项工作了。所以所有的研究者都需要重新思考,自己的核心竞争力到底在哪里。
这些震撼它不是一次性的,就三天两头会有。所以每天我都会想,今天我应该让AI帮我做一些什么新的尝试呢?AI还能给我带来什么新的便利呢?当然了,AI用得越来越多,我对于它的边界也变得越来越清楚了。
最近半年我提交了两本学术著作的书稿。有一本进展挺顺利的,因为AI帮了我很大的忙。而另一本就不太顺利。另一本书我自己其实已经写得七七八八了,也差不多了,但是还有一些小地方、一些小问题,让AI帮我做一些小的修订和考证,结果它改完以后,我看这个结果越改越差。反复改,改了好几轮以后,我发现AI最后给我的稿子质量还不如我最初交给它的版本。所以我又花了很大力气,又重新往回改,最后把稿子救回来。
写作是学术工作当中最核心的部分。所以这几年我没有特别关心AI在画图、写歌、剪视频这些方面的能力,我知道它很强,但是我自己最关心的是它的写作能力。我目前对于AI的判断是这样的,就是AI能写出语法正确、信息完整、看上去很专业的文字,但是它有两个地方还差得很远。
第一当然是事实的准确性。因为它会一本正经地编造文献,编造数据,编造引文,编造故事,就是幻觉问题。这几年有所改善,但远远没有解决。
第二是真正的思想原创性。也就是它可以很好地综合、总结、改写已有的观点,但是它很难产生真正新的洞见。它写出来的文字经常是充满套路,啰嗦,喜欢夸大其词。它没有办法用真正的洞见来说事,所以它只能东拉西扯,夸大其词。说到底,我觉得它现在还是不够聪明。至于未来它会不会变得更准确、更聪明呢,我认为是一定的,但是它还是有一些极限,归根到底它是弱AI。

这个节目想讨论什么

这次我和看理想合作,做这档《AI经济学》的节目,一方面是我确实想讲这方面的内容,一方面也是想看看大家想听什么内容。经过和编辑的反复讨论,最终形成一个大致框架。节目总共有五个章节,每个章节大概是四讲,所以加起来差不多就是二十讲。
第一章叫做“人工智能是什么”。这章主要想讨论,AI是什么,AI为什么会对我们的工作生活有影响,AI对于我们的工作生活到底有多大影响。其实我们周围大多数人对于AI都不以为然,并不关心,觉得少数AI狂热者是有病。AI是不是真的产生了那么大的影响?AI 是不是真的那么重要?这是第一章要讨论的问题。
第二章叫做“AI会照顾我们吗”。这一章会更具体地讨论AI对于我们生活的细节的影响。比如说,AI对于文科生有什么影响?AI对于中产阶级有什么影响?AI会影响我们求医问药、看病治病的方式吗?AI会影响我们日常大大小小的决策判断吗?等等。
第三章叫做“艺术与人文教育,是AI的禁飞区吗”。这一章主要讨论AI对于创造的影响,包括它对于教育,它对于艺术,它对于文化生产等等这些方面的影响。
第四章是“经济学家如何研究AI带来的新老问题”。这章会讨论AI对于传统经济问题的影响,比如对于企业的影响,对于国际贸易的影响,对于国家战略的影响,同时也看看AI对于经济学研究带来什么新的问题。
第五章也是我最关心的一章,叫做“AI的技术与伦理”。这章会比较多地讨论政策问题,比如AI应该怎么监管,AI应该开源还是闭源,应该放任还是审查等等。我一直认为AI的伦理对齐问题是AI最核心的问题。如果处理不好这个伦理问题,会对于我们的生活真正的造成巨大影响。
同时要说明,把五个章节放在《生娃、养老、打工人:像经济学家一样思考》节目之后,也是有它的理由。因为我最初设计这档节目的时候,就是设计《生娃、养老、打工人》的时候,设计了发展经济学、行为经济学、劳动经济学、经济史等等这样的一些章节,这些都是经济学里面的非常重要的分支,希望帮助大家能够全面地认识经济学。而这一次AI经济学这个版块,可以说是经济学的一项最新分支。有了AI这个工具,现实中的经济系统会发生巨大的变化,过去的很多重要的经济学理论也必须相应地作出修正。所以这是经济学真正的前沿领域。我也想通过这个节目把经济学界的一些最新的思考,其他经济学家是怎么看AI、怎么想AI,一起分享给大家,一起见证AI对于方方面面的改变。
最后要说明的是,这五章新补充的内容,看起来已经覆盖了AI经济学的大部分内容,但是我们也不要被这个框架束缚住。因为我自己肯定会时不时有一些新的想法想跟大家分享。AI这个领域变化太快,很有可能就在我们节目录制的过程当中,有一些AI技术新出现重大突破,迫使我们不得不去讨论一些计划外的事情。所以如果有一些话题塞不进现有的框架,那我们就以番外的方式继续聊。这个节目名义上是二十集,但是听过以前节目的朋友都知道,我们这个节目也不大严格按照集数走,反正聊到哪里算哪里。
我也希望大家在留言区跟我积极地互动。你对AI有什么特别关心的问题,有什么特别想跟我探讨的内容,都欢迎在留言区告诉我。如果有些问题我自己回答不了,没关系啊,我会去问AI啊,我问了AI以后,再跟大家分享我的思考结果。所以借助AI这个工具,这个节目的讨论一定可以推到更深更远的地方。AI它永远是这档节目的主角之一,因为它既是节目的主题本身,同时也是我最重要的研究工具。

这个节目里我会怎么用AI

既然这个节目讨论AI,我也必须跟大家说明一件事情,那就是我在这个节目里到底会不会用AI,怎么用?我的回答是,我一定会用,但我也不会都用。
具体一点说,比如说准备资料的时候我会用AI,让它帮我做一些文献检索、做初步整理。但是我得去核查事实。你说解读资料的时候我有时候会用AI帮我提取一些陌生的论文的一些关键的要点。但是我自己我也得读这些论文,我得核查这些论文,因为AI它经常瞎编。你说我写逐字稿不顺利的时候,写不出来的时候,也许我这段话我会交给AI,就让它帮我换种说法,或者提供一些其他备选的表达等等,这都是有可能的。但是最终的判断、最终的观点、最终的表达,它一定是我自己做出来的。AI它是我的助手。我没有办法精确地说出 AI在我这档节目里面它要占多少比重。就AI占多少比重,我占多少比重,这个很难说但是我可以说的是,不管是AI还是我自己,我本人都是这档节目不可缺少的一部分。
这里我想讨论一个概念,叫AIGC,也就是人工智能生成内容。这几年AIGC非常流行。我们都知道现在有一些短剧、短视频里面完全没有真人拍摄,从画面到配音到剧本全都是AI生成的。你说有一些图书,它的插图、封面、正文,背后也都是AI。我个人的感受是这样,AIGC我们可以把它分成两个维度,一个叫做形式,一个叫做内容。在有些场合大家更在意形式,而在另一些场合大家更在意内容,当然既有形式又有内容,这是最好的,但在实际操作当中,我们经常需要在两者之间做一些取舍。
举个例子。有一段时间我经常用谷歌的一款AI产品,我相信很多听众都在用,叫NotebookLM。我们做研究的人有一项日常必须的工作,那就是读论文,而且要读很多论文。一篇严肃的学术论文,你认真读一遍,你要半个小时吧,甚至一个小时都有可能,因为里面充满了公式还有复杂的逻辑链条,读一篇论文可以读得人筋疲力尽。那NotebookLM它就提供一个功能,就是你把论文扔进去,它可以帮你生成一段十五分钟的音频,让两个AI主持人用对话的形式讨论这篇论文,一来一回,有问有答,有捧哏的,有逗哏的,听起来就真的像两个学者在聊播客一样。
我知道有很多听播客的人是拒绝NotebookLM的,因为他们需要活人感,也就是形式感。但我自己其实对这个没有太在意。因为我也很看重内容,如果有内容的话,我甚至可以放弃很多形式,就像我为了阅读而放弃纸书是一样的。所以有一阵我确实经常用NotebookLM来听播客。因为它都是定制播客,感觉比小宇宙的播客质量要高,获取的知识更有效。尤其你需要大量阅读论文的时候,你来不及阅读,那我就先用NotebookLM先过一遍,生成一个音频,让我听个大概,然后再决定哪几篇要读。
但是你慢慢地听多了就会发现问题,那就是这两个AI主持人怎么永远在吹捧啊?它们对论文没有独立判断。他们只是按照论文本身的逻辑,把它的内容用对话的形式再呈现一遍。你听完以后,你并不知道这篇论文写得好不好,重要不重要,因为这种AI生成的内容它对于论文它没有主观评价,你听完以后也不知道它们遗漏了哪些精彩的细节。后来我会发现,我自己读一篇论文跟AI读一篇论文,两者关注的重点是完全不一样的。
所以慢慢地,我就把读论文这件事情的主动权给收回来了。因为我自己读论文,是为了形成自己的判断。因为平时你说我跟同事、跟学生、跟朋友大家聊天,聊天的时候大家主要就在吐槽啊。所谓的吐槽,本质上就是交流各自的学术判断。对于一个学者来说,最有价值的不是他知道哪些事实,而是他对于这些事实的判断。AI确实可以替你知道很多事情,但是它只会讨好你,它没有办法替你做出判断。所以真人聊播客,不只是一种形式。真人聊播客,它本身就会带有自己的判断和偏见,这也是内容的一部分,甚至是极其关键的部分。
所以在这档节目里,我希望和大家分享我自己的一些判断,而不只是AI总结。或许这就是我做这个节目,目前我觉得它还不能被AI所取代的原因。我会用AI帮我处理琐碎的工作,但最终的观点和论证都是我自己做出的选择。当然了,稿子也是我写的,录音也是我录的。这是我对于大家的承诺,也是我对于这档节目的基本要求。
这档节目是做给听众朋友听的,当然了,我也不介意大家带着AI一起听。欢迎大家用我的观点去问AI,或者是比较我和AI的区别,或者看看AI在哪些地方比我强。或者你把这个节目扔给AI,让AI听也行。但AI本身它不需要听我的节目,因为我觉得这档节目终究是我和大家之间的交流手段。
讲到这里,我想再回到节目开头那个问题,人工智能它究竟是什么。今天我们其实没有一个确定答案,因为每个人的认识和体会完全不一样,大家从AI当中获得的东西也完全不一样。这种认识差距不仅不会缩小,还有不断拉大的趋势。
那我试着用自己的感受来回答这个问题。目前从哲学角度来看,目前的AI是一种弱智能。他可以表现得知道一切,但是它还没有自我认知,它没有情感,它没有同理心。目前我还看不到任何强AI的线索。这是从哲学角度来看。从技术角度来看,现在AI它在认知方面已经非常强大了,在一部分的工作当中已经可以取代人类,在大部分的认知领域都接近人类的最高认知水平,人类的智力优势已经不明显了。目前可以说在多数领域有少数人还有智力优势,但未来很快就会变成只有在少数领域有少数人还能维持智力优势。所以从社会角度来看,AI已经对这个社会产生巨大冲击,未来的冲击一定会更为猛烈。这种冲击无可避免,人类无处可逃。与其逃避,不如适应,更多地参与AI讨论,从而更好地适应与AI共存的未来人类社会。
所以我觉得,当下正是经济学家介入的比较合适的时刻。因为经济学它关注的重点一直是技术在现有的约束条件下会怎么被使用,会让谁受益,会让谁付出代价,这是经济学研究的传统强项,也是我在这档《AI经济学》节目里希望跟大家多多探讨的事情。
那今天就先聊到这里,希望大家多多支持《AI经济学》。我是梁捷,感谢收听,我们下期正式节目再见。
本集编辑:ruicen、ZY
2026.06.18

精选评论

共 30 条
  • 沈媛
    2026-06-18 17:29:51

    来听梁老师新节目!

    梁捷 (主讲人) :感谢沈老师的支持,下次碰到一定拉着您聊聊AI。

    看见顽童 :跟沈老师做同学

  • 小新老师
    2026-06-18 20:18:22

    商业的很多AI是有讨好型人格的,但是一些微调的AI也是可以提出犀利的问题的。目前我主要是通过修改openclaw中soul.md文件来实现这部分的改变。但关键还是看AI的思路,目前LLM的AI的底层逻辑仍然是上下文基础上的概率推断。但这不意味着它给出的“类人”思路没有借鉴价值。如何跟AI共同“演化”是AI素养最重要的一环。这比会用AI更重要。

  • L
    Lynn
    2026-06-18 17:36:38

    不点进来都不知道有这么大的更新!太惊喜了!

    梁捷 (主讲人) :感谢一直以来的支持,我们继续。

  • 庄表伟
    2026-06-18 22:48:00

    非常开心,听到了《AI经济学》,期待有哪位老师,来讲《AI社会学》。

  • 小新老师
    2026-06-18 20:05:00

    我一般会用自己的语音内容为语料,保持人味儿,然后再用AI扩写或者拓展。

  • 小新老师
    2026-06-18 20:03:57

    用知识库型AI可以解决文献幻觉问题

  • 小新老师
    2026-06-18 20:03:03

    目前硅谷码农的80%的代码都是AI写的。未来键盘的利用率会越来越少。

  • 小新老师
    2026-06-18 18:55:57

    这一点乔布斯曾经“辟谣过”,大概意思是:“我们真的希望像大家想象的那样有创意地想出了苹果公司的名字,但事实情况不是这样的…”据说主要原因和乔布斯喜欢吃水果有关(˶‾᷄ ⁻̫ ‾᷅˵)。

  • 然天
    2天前

    终于又可以学习梁老师的课程了。

  • 水晶石
    2天前

    非常期待跟着梁老师课堂,思考AI

  • 光之巨人。
    3天前

    ai没有办法代替人做他兴趣的事情,我认为一个人即便在ai那里没有智力优势也没关系,因为对于价值的定义应该掌握自己手里,而不是交给ai,ai要做的是帮一个人做枯燥无味的事情

  • JPChou
    3天前

    如果你說 AI 不懂,那什麼結果會讓你承認自己錯了? 討論 AI 到底「懂不懂」語言,最麻煩的地方不在 AI,而在「懂」這個詞本身。這個詞在日常生活裡很好用:我懂中文、你懂英文、他懂圍棋、模型懂不懂問題。可是只要把它放進哲學和認知科學,它馬上變得很滑。因為如果「懂」沒有一個可以被測試、可以被反駁的標準,那麼任何人都可以永遠立於不敗之地。 比如有人說:「AI 不懂語言,它只是模仿。」那我們就要追問:什麼現象出現以後,你才願意承認它懂?如果 AI 能翻譯,你說它只是符號替換;如果 AI 能解釋成語,你說它只是統計關聯;如果 AI 能寫文章、改錯、推理、舉例、反駁自己,你仍然說它只是更複雜的模仿。那麼這個說法就有問題了,因為它可能不是一個科學判斷,而是一個怎麼樣都不會輸的哲學立場。 這就是我覺得討論 AI 理解問題時,最應該先問的波普爾式問題:如果你主張 AI 不懂,請先說明,什麼樣的測試結果會讓你承認自己錯了?反過來也一樣。如果你主張 AI 已經懂了,也要說明,什麼樣的失敗會讓你收回這個判斷。否則「懂」和「不懂」就只是兩種口號,不是可以討論的問題。 圖靈測試正是最早試圖把這件事操作化的方案。圖靈不直接問「機器會不會思考」,因為這個問題太抽象。他換了一個問法:如果一個人只能透過文字和兩個對象交流,其中一個是真人,一個是機器,而他分不出誰是誰,那麼我們是否可以說機器表現出了智能?這個設計的好處是,它把「智能」變成了一個外部可測的表現。 2025 年 Cameron Jones 和 Benjamin Bergen 做了一個三方圖靈測試。他們讓評審同時和一個真人、一個 AI 對話,再判斷誰是人。結果在特定人設提示下,GPT-4.5 被判定為真人的比例達到 73%,甚至高於真人被選中的比例。這是一個很有衝擊力的結果,因為它說明至少在短時間文字聊天中,AI 已經不只是「像機器」,而是可以比真人更像真人。 但是圖靈測試的限制也很明顯。它測到的是「像不像人」,不是「內在是否真的理解」。這就像面試中有人回答得非常流暢、自然、有細節、有情緒,面試官可能會覺得他很懂。但這只能說明他通過了面試,不能直接證明他具備深層能力。圖靈測試測的是可見表現,不是內在心智。 塞爾的中文屋就是針對這一點提出反駁。想像一個完全不懂中文的人被關在房間裡,手邊有一本非常完整的規則手冊。外面的人把中文問題塞進來,他根據手冊查找對應規則,把中文答案遞出去。外面的人看見答案流暢自然,於是判斷屋裡的人懂中文。但屋裡的人其實完全不懂,他只是根據符號形狀做轉換。塞爾想說:即使外在輸入輸出完全像理解,也不能推出內在真的有理解。 中文屋的力量在於,它提醒我們不要把「會回答」直接等同於「懂」。但是中文屋的弱點也在於,它沒有給出一個清楚的反向測試。假如一個 AI 不但能回答中文問題,還能解釋典故、辨認隱喻、翻譯方言、結合圖片和行動、在新情境中修正錯誤,塞爾派仍然可以說:這只是更大、更複雜的中文屋。那麼我們就要問:它到底要做到什麼,你才承認它不是中文屋? 這裡可以用一個比喻。假設有一個人開車很穩,能避開行人、遵守交通規則、根據天氣調整速度、遇到施工能改道、甚至能向你解釋為什麼這樣開更安全。你說:「他不是真的會開車,他只是踩油門、打方向盤、看紅綠燈。」這句話在物理層面當然沒錯,但它沒有解釋「會開車」到底還缺什麼。如果所有會開車的外部能力都具備了,我們還堅持說他不會開車,就必須給出更清楚的標準。 喬姆斯基對 ChatGPT 的批評則走另一條路。他不是主要談中文屋,而是說大語言模型和人類學語言的方式根本不同。人類小孩只接觸有限語料,就能學會非常複雜的語法,還能創造從未聽過的新句子。喬姆斯基認為這說明人腦裡有某種先天語言結構。相反,ChatGPT 這類模型依靠海量資料,做的是模式匹配、統計預測和下一詞生成,所以它不是真正的人類式理解。 這個批評有一部分是可以科學化的。比如我們可以問:兒童是否真的能在非常少的語料下掌握某些語法規則?AI 在相同資料量下能不能做到?人類是否不能學會某些「不可能語言」,而 AI 卻可以?這些問題都可以設計實驗。因此,喬姆斯基的語言學理論不是完全不可測。 但問題在於,當「先天結構」被說得太抽象時,它也可能變成自我保護的理論。AI 做不到,人們可以說:看,它沒有先天結構。AI 做到了,人們又可以說:它只是功能上模仿,不代表真的有那種先天結構。這就和中文屋遇到同一個困境:如果任何結果都不能動搖你的核心判斷,那它就不再像科學命題,而更像一個信念框架。 更麻煩的是「主觀理解」。我們不能簡單說「目前沒有證據證明 AI 有主觀理解」,因為這句話仍然暗示好像存在某種測試,只是 AI 還沒通過。更準確的說法應該是:目前還沒有一套公認、可重複、能區分真偽的測試方式,可以判斷一個非人系統是否具有主觀理解。既然沒有測試方式,就談不上拿出對應證據。證據不是憑空存在的,證據永遠是針對某個命題、在某套測試框架下才成立的。 這就像在發明溫度計之前,你可以說水很熱、很冷、燙手、不燙手,但你很難精確討論它到底是幾度。不是因為水沒有溫度,而是因為你還沒有一套測量方式。主觀理解也是如此。對人類來說,我們通常透過語言報告、行為表現、身體結構和彼此相似的生物基礎,推斷對方有主觀經驗。但對 AI 來說,這套推斷鏈條斷掉了。它沒有人的身體、沒有人的大腦、沒有人的成長史。它能說「我理解」,但這句話本身不能成為證據,因為語言報告正是它最擅長生成的東西。 所以,更好的做法不是直接問「AI 到底懂不懂」,而是把「懂」拆成幾個層次。第一層是行為上的懂:能否回答問題、翻譯、摘要、寫作、完成任務。這一層可以測,圖靈測試就是一種方法。第二層是認知上的懂:能否在新情境中泛化,能否做因果和反事實推理,能否根據新證據修正自己,能否把語言和圖像、行動、世界狀態連起來。這一層也可以部分測試。第三層是主觀上的懂:它是否有「我正在理解」的內在感受。這一層目前不是缺少證據,而是缺少被普遍接受的測試方式。 如果我們把這三層混在一起,就會吵不完。支持 AI 的人拿第一層和第二層說:你看,它已經懂了。反對 AI 的人拿第三層說:不,它沒有真正理解。雙方都沒完全錯,但他們其實不是在講同一件事。前者講的是功能性理解,後者講的是主觀性理解。 因此,我更願意說:現在的大語言模型已經展現出很強的功能性語言理解;至於它是否具有主觀理解,目前不是尚未被證明,而是尚未形成可檢驗的判準。它不是單純的錄音機,也不是有靈魂的人。它位在一個以前的哲學分類沒有準備好的中間地帶。 圖靈測試告訴我們:外在表現已經不能輕易區分人和機器。中文屋提醒我們:外在表現不等於內在心智。喬姆斯基提醒我們:機器學語言的方式可能和人類不同。但波普爾式的質疑則進一步要求我們:不要只說「它懂」或「它不懂」,而要先說清楚,你的判斷如何被測試,如何被推翻。 所以,真正重要的問題也許不是「AI 是否真的懂」,而是:在什麼任務、什麼條件、什麼失敗標準下,我們願意承認它具有某一層次的理解?這樣問,才有可能把哲學口水戰變成可討論、可比較、可改進的科學問題。

  • 迷楼B612
    2026-06-19 17:36:04

    有新节目听啦

  • 🍊0
    2026-06-19 15:03:07

    所以,它会将科学变成炼金术吗? :如果不加区分地拥抱“黑箱”预测作为终点,就会? 真正的科学是: 从“现象”到“规律”再到“理解”。 “黑箱科学”可能是: 从“数据”到“模式”再到“另一个黑箱”。 当我们用AI发现了一种能治愈癌症的新分子,却完全不知道为什么它有效时——这和炼金术士发现火药配方没有本质区别。这可能是有效的技术,但不是可靠的科学。没有理解,就无法进行根本的创新,也无法预见潜在的灾难。 这就是为什么很多顶尖科学家坚持,AI应该作为启发人类理解世界的“望远镜”,而不是代替人类给出最终答案的“神谕”。 “机器人会懂人类为什么哭泣吗?” 如果它只是通过黑箱模式匹配给出答案:它不懂。 但如果这个答案让我们自己,第一次开始真正思考“我们为什么哭泣”——那在这场全新的对话里,它又算不算,懂了一点别的什么呢?这或许是问题的背面。

  • K
    Kate Zhang
    2026-06-19 13:32:53

    续,比如法律工作,因为我做过很多年律师,能很轻易认识到这一点。所以我认为AI是完全可以替代现有的法律结构的,人类只需要判断,甚至未来设定了判断标准的排序,比如价值顺序,框架顺序等等,法官的工作也可以被替代,这只是时间问题。当然工作替代是另外一集里的另外一个大话题,就不展开了。总之,AI作为语言模型,对语言的颠覆比我们所能想象的还要大,最后可能就像维特根斯坦所说,凡我们不知道的,必须保持沉默。必须对语言本身有所警惕。对于绘画,我用AI陪我画画,这方面它表现比对话差得多了,甚至是笨。不是它不会画,你让它画什么都行,但它很难判断哪幅画好,好在哪里,如何改进等等等。总之所有和真实物理世界发生关联的,AI表现都弱一些,但在二维世界里,它几乎无敌。

    Kate Zhang :应该说二维世界里,它就是无敌