编者按:Index Ventures的合伙人Rex Woodbury 1月14日发表了文章“AI in 2023: The Application Layer Has Arrived”(分析了AI最新的应用场景和商业模式。以下为全文:
很多人都预测 2023 年将是 AI 之年。但 AI 显然不是今年才开始爆发或者炒作起来的。但是 2022 年图像生成工具以及聊天工具 ChatGPT 等消费者化是人工智能开始普及应用的标志,2023 年这股趋势只会愈演愈烈。本文剖析了 AI 的用例与商业模式,也许我们将迎来继农业革命、工业革命以来的第三种通用技术的普及。文章来自编译。
现在 AI 令人兴奋的一点是平台层正在固化,这意味着应用层该出现了。换句话说,也就是你我每天都会接触到的东西该出现了。
过去这几个月的时间里,我已经写了好几篇与 AI 正在发生的事情有关的文章。鉴于这是我们进入 2023 年要面对的技术主题,在此我想把那些文章都整合一下,写一篇深度探讨的文章,然后进一步拓展。
其结果是这篇文章的篇幅要长很多,但在关于我们现在处在什么位置的事情上,我希望它能提供一份类似‘国情咨文’的快照,同时就“我们未来要去哪里”给出一些提示。
让我们开始吧。
每当我思考人工智能领域在发生着什么时,我往往会想到两部电影。一部是 33 年前问世的老片,一部是 10 个月前问世的新片。
1990 年上映的《超国度》(Hyperland)几乎已被人遗忘。这部科幻电影的导演是道格拉斯·亚当斯 (Douglas Adams),他更出名的身份是《银河系搭车客指南》的作者。电影的假设是亚当斯对被动式的线性电视已经厌烦了,电影称就是“那种发生在你身上,而你就像一个沙发土豆一样坐在它面前的电视。”
为了寻找更具互动性的媒体形式,亚当斯把他的电视带到了一个垃圾场,在那里他遇到了汤姆(由汤姆·贝克饰演)。汤姆是一位软件代理——本质上属于一个数字管家,能够根据你的特定兴趣为你提供个性化的信息和娱乐饮食。汤姆带领我们的主人公穿行于一个超媒体的虚拟世界——一个由链接的文本、声音、图像和视频组成的世界。换句话说,汤姆带着亚当斯踏上了互联网之旅。(或者说得更具体一点,是穿行于一个漫长而曲折的兔子洞,跟维基百科类似——但比维基百科的出现早了 11 年)。
《超国度》,尤其是汤姆这个角色,让我想到了我们目前的现实:人工智能驱动的算法推荐引擎,根据我们独特的兴趣图谱塑造出的一个超个性化的互联网。这就是我所说的“一切都被 TikTok 化”。(David Karpf 提出了一个很有智慧的看法,即超国度与现代之间有一个关键区别:在电影里面,是你在控制算法;当然,现如今的算法已经过优化,可以替开发和部署它们的公司赚钱。)
我想到的第二部电影面世的时间要近得多:2022 年 3 月的《瞬息全宇宙》,在我看来,这有可能是今年奥斯卡最佳影片的潜在竞争者。在我最近的记忆中,《瞬息全宇宙》属于线索比较混乱的电影之一。这部电影讲述的是伊芙琳(杨紫琼饰)的故事,她是一名中国移民,经营着一家正在接受美国国税局审计的自助洗衣店。伊芙琳很快发现,她生活在无限宇宙里面的一个宇宙,她必须穿越多重宇宙才能拯救她的家人。
从很多方面来说,这部电影都是对互联网之乱的隐喻。在接受 Slashfilm 的采访时,电影导演之一的丹尼尔·谢纳特(Daniel Scheinert)是这么说的:“我们希望这部电影的极简主义能够与没完没了地刷屏的感觉建立关联”。
YouTuber Thomas Flight(对这部电影做出了出色的分析)称《瞬息全宇宙》是第一批“后互联网”电影之一,因为它捕捉到了在线生活的怪异之处。生活在 2023 年的迷人的一点在于,我们的大脑与一个世纪前相比没有什么不同(事实证明,进化需要很长时间),但我们的世界在 100 年内却发生了翻天覆地的变化。正如 Flight 所说的那样:“我们现在生活在这样一个时代,在一次 30 分钟 TikTok 狂欢里,我们体验到的有趣想法、概念、人物以及地方,就要比我们被困在当地目不识丁的祖先一辈子所经历过的东西都要丰富。”快速演变的数字混沌会如何扭曲我们缓慢进化的人类思维呢?
《瞬息全宇宙》里面的宇宙是多种多样的,而且非常非常的奇怪。在一个没有人类生命的宇宙里,每个人都是一动不动的石头。里面还有一个宇宙,这个宇宙里面每个人都是蜡笔画。另一个宇宙里,每个人的手指都变成了热狗(我告诉过你这很奇怪)。
《瞬息全宇宙》这部电影捕捉到了互联网的运动能量与无情的节奏。
不过,这部电影让我想到的不是互联网,而是生成式人工智能正在发生的事情。就像电影让主人公将她想象中的任何东西都转化为有形的现实一样,生成式 AI 也让我们将想法变成了文字、图像和视频。
这是当我输入提示“A person made entirely of fruit”(一个完全由水果组成的人)时 Midjourney 生成的结果:
这是我输入“New York City skyline in the style of Van Gogh”(梵高风格的纽约市天际线)时得到的结果:
我可以花几个小时(而且我已经花了几个小时)去试验这样的提示。
2022 年取得突破的生成式人工智能是自十多年前移动和云计算兴起以来最引人注目的技术。平台层正在钙化,我们正目睹着令人兴奋的应用层的萌芽——这些产品有可能成为数十亿人日常生活的一部分。
这篇文章的目的是研究 AI 这一时刻背后的“为什么是现在”,并探索初创企业可以如何利用 AI来进行开发。本文内容将分为以下几部分:
- 1搭好舞台
- 2算法推荐系统
- 3图像模型
- 4语言模型
- 5生成式人工智能的用例
- 6商业模式
- 7最后思考及待回答的关键问题
好了,让我们开始吧。
搭好舞台
在过去十年里,有两股重要力量推动了技术的发展:分别是移动和云计算。
移动促进了大型消费互联网公司的崛起:Uber 与 Lyft、Instagram 与 Snap、Robinhood 与 Coinbase 。这些公司基本上都成立于 2009 年至 2013 年间。数字广告在 2010 年代迅速转向移动设备,Facebook 等桌面时代的公司不得不争先恐后地重塑业务。
云计算则支撑了软件即服务 ( SaaS ) 的爆发式增长,并让数据变成企业最宝贵的资源(“数据就是新的石油”云云)。这一领域的新兴公司基本上也都成立于 2009 年至 2013 年之间,其中包括 Slack 与 Airtable 、Stripe 与 Plaid、Snowflake 与 Databricks 等。
从 2015 年到 2022 年间,存储在云端的企业数据占比翻了一番:
这是过去 10 年 AWS 收入情况图,很少有图表比这幅图更令人印象深刻(利润率高达 35%!):
移动和云计算让 2010 年代成为技术领域非常非常好的十年。但在过去的几年里,我们看到很多人都在嚷嚷接下来会发生什么。虚拟现实?增强现实?自动驾驶汽车?加密货币?Web 3?
这些技术个个都很有趣,原因各不相同,有趣的用例也各异,但都还非常非常早。整个 VR 行业仅相当于苹果 2021 年营收的 2%。(虽然随着苹果即将推出的混合现实头显,情况可能会有所改变。)围绕新技术的炒作太多,而源于对移动和云计算的焦虑的“平台转变”已经……过时了。AWS 推出时间是 2006 年;iPhone 在 2007 年问世。移动和云计算都还没有饱和,但它们的新机遇并不像以前那样成熟了。与此同时,我们看到前所未有的私有资本开始涌入,去追逐创业公司:
2020 年代最引人注目且最有可能推动技术发展的力量是什么?也许是人工智能。人工智能在过去几年中得到了显著改善。直到最近,Gmail 的自动补充句子功能几乎还没法用;但现在已经好得吓人。Facebook 用户将认识到 AI 在识别照片里面的朋友方面已变得有多么出色;实际上,Facebook 的 DeepFace 引擎现在比人类还要擅长面部识别。就在去年夏天,我们看到了从 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的涌现。人工智能正在成为主流。
Facebook 的DeepFace现在比人类还要擅长面部识别
我们正处在人工智能的转折点(原因稍后会详细介绍),这个转折点正在支撑起创新的寒武纪大爆发。2009 年至 2013 年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现,但这次,人工智能将成为催化剂。
前一段时间,有位朋友问了我一个问题:AI 是泡沫,还是下一个大事件?答案可能是两者兼而有之。
现在有很多令人兴奋的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者两者兼而有之。但是当你将画面拉远时就能发现,毫无疑问我们正处于一个激动人心的技术新时代的风口浪尖。
算法推荐系统
最近的大部分讨论都围绕着生成式人工智展开,但“传统”的人工智能仍有很大的发展空间。曝光度最高的人工智能应用是什么?也许没有比 TikTok 的For You Page(为你推荐)更高的了,对于《超国度》那个具有先见之明的超个性化的互联网来说,这可以说是它最好的现代类比。
TikTok 沉浸式、算法性的 For You Page 开创了内容策划的新风尚。一开始,每个发布出去的视频都会被推送给一组的初始受众,然后根据他们观看了多长时间、是否喜欢视频、是否对视频发表了评论等等,对这些观众的反应进行评估。如果受众反应良好,视频就会被推送给更多的受众,如此循环往复。
我最近跟同事 Martin 讨论了一下移动和云计算之后技术的下一步会是什么。我们聊起了 AI,并回想起十年前那张著名的“解绑 Craigslist”的图表。
就是这张图:
将业务从Craigslist解绑出来诞生了大批初创企业,迄今为止这批企业的融资额达到了88.7亿美元 资料来源:CB Insights
这里还有一张,要表达的概念是一样的,但更清晰:
这些图有一个基本前提,那就是原先市场的主要品类正在被更专注、更好的产品所重塑。通常,颠覆者会利用某项新技术:比方说,Tinder 是第一批只支持移动设备的约会 app 之一。
AI 应用可能也会带来类似的清算。主要的品类——如约会、房地产、求职等——可能会因为有人能更好地利用人工智能而被彻底颠覆。当 AI 可以把跟你完美匹配的对象呈现出来时,为什么还要上 Tinder 没完没了地刷屏?十年之后,我们可能会看到上图有了一个新版本,里面出现的也许是全新的公司 logo——AI 优先的公司会重塑每一个品类。当然了,生成式人工智能一定会从中发挥作用,但类似 TikTok 的推荐系统也很强大;就数字世界将越来越适合我们的独特品味和偏好而言,我们仍处于早期阶段。
让我们看个例子——交易。
从很多方面来说,SHEIN 都算是 TikTok 的姊妹公司。SHEIN 与字节跳动(TikTok 的母公司)都是中国公司,而且位列全球最有价值的三大初创公司之一(字节跳动排名第一,美国的 SpaceX 排名第二,SHEIN 排名第三)。
就像 TikTok 渗透了美国的媒体一样,SHEIN 也打入到美国的快时尚——
这张图换了个视角,把 SHEIN 与 H&M 和 Zara 的销售额进行比较:
SHEIN 的爆发式增长非常引人注目:SHEIN 已经连续八年(!)每年的增长率都超过 100%,其在非公开市场的最新估值已经超过 Zara 和 H&M 市值之和。2022年 6 月,SHEIN 取代亚马逊,成为 iOS 和 Android 应用商店排名第一的购物应用。
SHEIN 的速度令人瞩目:这里每天都要上架 8000 件新商品,而 Zara 每周才新增 500 件。SHEIN 基本上属于互联网原生的 Zara 和 H&M 转世,利用了更好的技术把从设计到生产的时间从三周压缩到了三天。SHEIN 通过梳理竞争对手的网站和 Google Trends,找出流行的款式,然后快速做出自己的设计,预测需求,实时调整库存。
我们再说回 AI,SHEIN 给我留下的其中一个深刻印象是它的推荐。就像字节跳动会预测你想看的内容一样,SHEIN 会预测你想买什么衣服。SHEIN 之于电商就像字节跳动之于内容。
这个周末,为了给朋友即将举行的 30 岁生日聚会准备东西,我打算到网上购物。这个派对以《亢奋》(Euphoria)为主题,也就是说,基本上你得穿得像 HBO 那部美剧的里 Maddie 、Cassie 或 Nate Jacobs 一样。我之前从来都没上 SHEIN 买过东西,但我输入了“男士黑色网纱上衣”来找衣服。然后我点击了“裤子”品类,结果看到了这个屏幕:
只是搜索了一次网纱上衣,SHEIN 就能够预测出风格和主题非常相似的裤子。这非常令人印象深刻。(还有,请不要以为这些就是我平时穿的衣服。)
从某种程度来说,这是 Stitch Fix 开创的个人造型订阅盒概念的更复杂版本。Stitch Fix 给整个过程引入了人,也利用了数据科学,但其基础是新客户引导冗长的问卷调查。而 SHEIN 只根据我输入的四个词(也许还参考了我点击的内容、鼠标悬停的位置等数据)就做出了准确的推荐。
Stitch Fix 的个人造型市场已被证明相对小众,而且它的股票也已受到重创。活跃客户已降至 390 万,同比下降 20 万人(下降 5%)。该公司正在努力向 Freestyle 产品转型——这是一种更传统的购物体验——但这个细分市场仍然只占该公司业务的一小部分。
尽管 Stitch Fix 举步维艰,但它的目标是突破性的——个性化商务。这家公司几年前就提出了这个概念,但当时人工智能还不够成熟,没法取代冗长的问卷调查以及小规模的数据科学家队伍。SHEIN 朝着正确方向迈出了一步,但我们仍站在人工智能驱动推荐的风口浪尖。
想象一下,如果有家公司能梳理你的相机胶卷,并以惊人的准确性为你推荐一大批新衣服会怎样?或者,也许这家公司只需要请你将 Instagram 帐户关联一下,然后就能消化你的所有点赞和关注,即可提供极其准确、个性化的时尚推荐。
人工智能的主要消费者应用将大量依赖于娴熟的推荐。这些推荐能预测到连你都不知道的需求与愿望——就像 TikTok 的 For You Page 一样:它能够在人们自己还没意识到之前就向对方表明他们是性少数者。也许上面的示例公司可以在一条 FYP(For You Page)动态消息中重塑商业,让你每次浏览一个精心策划的商品——双击即可购买,向上滑动即可查看下一件东西。
世界正在向着个性化转变,而人工智能是在给这股趋势火上浇油。我的朋友 Alex 说的一席话我很喜欢:
突然之间,“一对一”体验可以大规模复制了——与我们在未来几年看到的应用相比,今天的 AI 应用仍处在初级阶段。想想看,上面的每一个 Craigslist 类别——教育、书籍、家居装饰等。每一个都即将被重塑。
图像模型
2022 年文本生成图像 AI 爆发了。首先出现的是来自 OpenAI 的 DALL-E (这个名字综合了艺术家萨尔瓦多·达利以及皮克斯的那部动画片,《机器人瓦力》,WALL-E)。当然,不是谁都可以直接用 DALL-E,但这方面的创作已经开始在互联网上火起来了;Twitter 上面我最喜欢的账号是 Weird DALL-E Generations。
对于这个世界大部分的地区来说,DALL-E 是 AI 的第一个真正的“哇哦”时刻。在与麻省理工学院交流时,OpenAI 的 Sam Altman 把这一点归功于图像所传递的情感力量:
我想说的是,其实相对于 DALL-E,技术界对 2020 年推出的 GPT-3 要更加认可。从 GPT-3这里,你第一次真正感受到了系统的智能。它可以做人做的事情。我认为它的出现让以前根本不相信 AGI [通用人工智能] 的人也要认真对待这一话题了。发生在 GPT-3 身上的有些事情是我们大家都没预料到的。
但是图像却有着独特的情感力量。相对于 GPT-3 ,世界其他地方对 DALL-E 的欣赏要高很多。
人往往更喜欢更丰富的媒体格式:Instagram (主要媒体是照片)一直都比 Twitter(以文字为主)更受欢迎;与此同时,TikTok (主要是视频)在使用上一直在蚕食 Instagram 的市场,迫使后者也得向视频转型(通过 Reels )。在我看来,类似的偏好也会发生在生成式人工智能身上:图像 > 文本,很快,视频也会 > 图像,以及最终沉浸式 3D 体验将 > 视频。(消费者偏好的这一事实也是我从长远看继续看好 VR 和 AR 的原因。)
在 DALL-E 起势之后,去年夏天 Stable Diffusion 和 Midjourney 的出现彻底改变了局面。Stable Diffusion 具有开创性,因为它是开源的,这意味着开发者基于它做开发。稍微解释一下,Stable Diffusion 将扩散从像素空间转移到了潜在空间,从而推动了质量的显著提高。(如果你感兴趣的话,可以看看这一篇文章https://36kr.com/p/2085103366422920。)与此同时,Midjourney 在可访问性方面具有开创性。Discord 上就能使用 Midjourney :任何人都可以注册一个免费账号,并获得 25 个积分,图像则是用公共服务器生成的。用完 25 个积分之后,每月支付 10 美元或 30 美元就可以继续使用(具体多少钱取决于你要创作的图像数量以及你是否希望生成的图像保持私密)。Midjourney 已迅速成为 Discord 上最受欢迎的服务器之一(也许是最受欢迎的服务器?),拥有 740 万会员。
下图是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文本提示时生成的图像,各自风格略有不同:
下面这条时间线从更宽泛的角度展示了 AI 图像生成在过去十年是如何得到改进的(请留意近年来提示的复杂性的不断增加,以及输出的保真度在不断提高):
去年是图像模型的转折点,生成的图像质量得到了迅速提高。举个例子:众所周知,AI 很不擅长创作手。除非 AI 具有出色的上下文感知能力,否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是 Midjourney v3(2022 年 7 月)与 Midjourney v4(2022 年 11 月)生成结果的对比,你能看出结果有了明显改进:不再会出现有两只喙或三条腿的企鹅。
当我想到图像生成早期遇到的挑战时,就会回想起一个世纪前动画在早期面临的挑战。米老鼠为什么要戴手套?原因之一是这样制作动画可以更快;手是很难画的。《聪明笨伯》(Fred Flintstone) 和 乔治·杰森(George Jetson)也是如此——你看不见他们的脖子,因为有脖子意味着角色的整个身体都得跟随每个动作和表情而移动。这意味着动画师要做更多的工作。领带和高领让动画师得以投机取巧,加快制作动画的速度。
当然了,半个世纪之后,动画已经取得了长足进步。《海底总动员》在某种程度上是皮克斯展示自己可以制作出逼真的水动画的借口。《怪兽电力公司》里面的形象也是如此。皮克斯一直等到第 6 部动画片《超人总动员》才第一次开始描写人类的故事,因为 CGI 技术之前还没有为此做好准备(指玩具总动员)之所以专门讲玩具,部分是因为皮克斯还不能对逼真的人类细节进行渲染——所以在电影中你几乎看不见安迪和他妈妈的影子)。
数字创作的轨迹正在沿着动画的轨迹前进,但技术发展的步伐只会越来越快。比方说,上面 Midjourney 生成的企鹅图像之间的差异只是短短几个月之间的对比结果。
语言模型
《黑镜》第二季的《马上回来》(Be Right Back)讲的是一对夫妻一起搬进了新家。结果第二天,丈夫出车祸身亡了。后来他的遗孀得知有一项新服务可以让她与已故的丈夫聊天;这款工具能够消化短信以及社交媒体的历史记录,从而了解伴侣会如何回应,然后代替他与客户聊天。这一集(2013 年播出)的情节现在已经成为现实。在针对个人数据进行训练的基础,初创企业 HereAfter.ai 就提供了与已故亲属的互动化身聊天的服务。
去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。去年 11 月, OpenAI 推出了 ChatGPT ,刚推出五天,这款聊天工具就收获了 100 万用户。ChatGPT 的表现令人难以置信;使用它的感觉跟你第一次用上 Google Search 一样,都有“魔法时刻”降临的感觉。(每次使用 ChatGPT 时,我都会想起亚瑟·克拉克的名言:“任何足够先进的技术都与魔法无异。”)
下面的一些例子说明了 ChatGPT 能做什么:
提示:“什么是虫洞?把我当作 5 岁小孩给我解释一下。”
提示:“提供一个 29 岁生日派对的创意。”
提示:“用伴奏的和弦写一首关于在家工作的歌曲。”
人工智能现在这种发展和采用的节奏可以追溯到 2017 年当时谷歌发表的一篇开创性论文,《Attention Is All You Need》。这篇论文由 Cohere.ai 创始人 Aidan Gomez 与人合著,从中催生出一个规模呈指数级增长的“transformer”模型时代。
不到三年前的 GPT-3 推出时的参数规模为约 2000 亿,但新的 GPT-4 将有约 1,000,000,000,000(万亿)个参数。
在提出新想法、理解上下文以及回忆信息的能力方面,每个新模型都实现了飞跃。但更大的模型的训练成本也高很多。训练有数千亿个参数的模型可能要花费数百万美元。出于这个原因,大规模模型正在成为初创公司创立的基础。我的同事 Erin Price-Wright 将其类比为亚马逊的 AWS 或微软的 Azure——数百万企业所依赖的云计算平台。
比方说,许多初创公司都建立在 OpenAI 的 GPT-3 基础之上。举个例子,Jasper 提供了一个由 GPT-3 提供支持的 AI 撰稿人。每月只需交 29 美元,Jasper 就能让你拥有写作的超能力。不过,Jasper 对 OpenAI 推出免费的 ChatGPT 感到吃惊,担心这会蚕食自己的业务。基础模型和基于这些模型建立的公司之间的关系会如何发展?这是今年值得关注的一件事情。
生成式 AI 的用例
手写文字识别是最早的人工智能形式之一,邮政服务主要用它来读取信封上的地址。但是人工智能的这个用例非常特殊。在生成式人工智能方面,我们已经看到:1) 图像和语言模型有了巨大改进,以及 2)OpenAI、Hugging Face、Stability.ai 等公司提供的宝贵基础设施。这两个因素相结合拓宽了用例的可能性。
之前在与 Daniel Gross 和 Ben Thompson 进行对话时,Nat Friedman 关于机会的思考方式我很喜欢:
一说到 AI 和大型语言模型时,人们往往认为需要大量专业知识。为了处理这些东西,我得了解深度学习,以及,哦天哪,我可能还得懂微积分或至少线性代数,可是我根本就不太喜欢那种东西。我需要知道怎么给 Nvidia 硬件编写 CUDA 内核程序?这可太吓人了。
我认为他们疏忽了一点,这其实是个谬误。这个谬误就好比要想制作颜料,你得是化学家。所以如果我想成为一名画家的话,我必须学习化学。但现实情况是,你不需要知道如何制作颜料就能成为一名伟大的画家。同理,我认为你不需要弄清楚大型模型是怎么做出来的,也可以用它们做出出色的产品。
我喜欢这个比喻。任何人都可以更轻松地开发出利用 AI 去画画的工具。变革每个行业的机会已经成熟。
如果极度简化的话,我们可以把用例分为两类:1)创意类,以及 2)生产力类。
说到创意,我们看到生成式人工智能降低了创作的门槛。利用 Midjourney,你可以给电影制作概念图。Latitude.ai 等公司开发出 AI Dungeon 等游戏,利用 GPT-3 进行 AI 驱动的探索。与此同时,Alpaca 所做的 Photoshop 插件演示在 Twitter 掀起了一股风暴;这家公司的使命是“将 AI 图像生成能力与人类技能结合到一起”。
我过去也曾写过创意工具日益普及的文章。早在 2015 年时,Steven Johnson 就曾在《纽约时报》上撰文:
消费文化的成本可能已经下降,尽管下降的幅度没有我们担心的那么多。但制造成本下降得更厉害。作者不需要印刷机或国际分销商的服务就可以为全球读者创作和出版小说。对于独立电影制作人来说,几年前可能要花费数万美元的直升机航拍画面,现在只需不到 1000 美元的 GoPro 和无人机即可拍摄;有些导演用 iPhone 即可拍摄一整部高清质量的电影。苹果售价为 299 美元的剪辑软件 Final Cut Pro X 就可以剪辑奥斯卡获奖影片了。利用 Native Instruments 软件,音乐家即可以惊人的保真度重现在维也纳音乐厅演奏的施坦威三角钢琴的声音,或数百种不同的吉他放大器声音,或甲壳虫乐队在《永远的草莓地》(Strawberry Fields Forever.)中使用的 Mellotron 合成器声音。15 年前,这些声音可能需要花费数百万美元才能合成出来;今天,你只需几千美元就可以拥有所有这些。
这很了不起,而且至今依然适用:2020 年奥斯卡最佳影片《寄生虫》就是用 Final Cut Pro 剪辑的。工具正逐渐变得更实惠、更容易获得,让更多的创作涌现。
人工智能拓宽了可能性。想象一下由人工智能驱动的 Roblox Studio,或者当人工智能与 Figma 结合在一起时可以解锁什么。我制作这张图至今已过去两年多了:
YouTube 是革命性的,但却给创作制造了很高的门槛:
1) 工具需要昂贵的投入;
2) 使用这些工具需要具备 know-how 知识。TikTok 这一类似无代码的方式降低了这些门槛,创造出一个公平的竞争环境。其结果是 YouTube 上大概每 1000 人才有 1 人创作内容,而接近 60% 的 TikTok 用户都会自己创作内容。
也许今年这张图可以用第三个框更新一下——一个超越无代码创作工具的更直观、强大的工具,并在创作内容的过程中利用生成式人工智能。用这个工具为 Instagram 制作照片、为 TikTok 制作视频或为全新社交网络创作内容。
就像人工智能增强了创意一样,人工智能也增强了生产力。我们在赋予作者和营销人员超能力的工具中就能看到这一点,比方说像 Jasper.ai、Copy.ai、Lex 这样的工具。我让 ChatGPT 帮我头脑风暴,给我的自媒体设计新标语,它的推荐令人印象深刻:
我们从 Gong 身上看到了生产力的提升,它运用了 AI 来帮助 B2B 销售团队提高效率和效力。我们在 Osmosis 身上也能看到这一点,它可以帮助广告代理商生成 AI 广告。我们在 GitHub Copilot 身上也能看到这一点,它可以将自然语言提示转化为数十种编程语言的编码推荐,而且从 2022 年 6 月开始,所有开发者均可用上这款插件。(在安装了 Copilot 的项目当中,约 40% 的代码是由它生成的,在五年之内这个比例可能会达到 80%。)
人工智能(尤其是建立在语言模型基础之上的人工智能)的早期目标是死记硬背的重复性任务。我认为有一个领域被重塑的时机已经成熟:那就是客户支持。这些是今天的人工智能已经可以取得重大进展的领域。更复杂的任务(比如 3D 游戏创作)在未来会有进一步的发展。但任何涉及人类创作的行业(基本上算是每个行业都要受到波及)都会感受到人工智能的影响。
我看到有人已经开始拿早期 AI 应用和早期 iPhone 应用做比较。还记得手电筒 app、lightsaber app、lighter app 吗?还记得《水果忍者》(Fruit Ninja)以及《劲乐团》(Tap Tap Revenge )吗?我们正处在 app 的早期阶段,现在判断什么样的应用是杀手级应用还为时过早。一个迫在眉睫的问题是企业如何才能建立起竞争性护城河;真正的技术差异化将变得很罕见,公司需要找到保持竞争优势的方法,也许是通过建立网络效应,也许是建立用户互动与产品改进的迭代循环。毕竟,事实证明,2008 年代的手电筒应用并没有多厚实的护城河。
但正如我们在几年内就从 lightsaber 应用发展到 Uber ,从《水果忍者》发展到 Instagram 一样,生态体系也将迅速发展,有生命力、差异化、跨时代的公司也将会出现。
商业模式
软件即服务是个好东西。可预测的经常性收入。80% 以上的毛利率。理想情况下,净收入留存率(NDR) >100%,这意味着即便没有获得任何新客户,你的业务也会逐年稳步增长。(140% NDR 意味着在新客户为零的情况,你的收入仍同比增长 40% ) 。
我的直觉是,很多最好的人工智能初创企业将是 SaaS 公司。好东西为什么要改?
比方说,Runway 就是最令人兴奋的人工智能公司之一。Runway 提供了一个由 AI 驱动的创作套件,看过它的产品演示之后你会瞠目结舌的。
从演示视频可以看出,Runway 提供了文本生成视频功能,让你可以用魔法召唤出一条城市街道,然后快速做出更改(比方说,移除灯柱,或将视频设为黑白)。想象一下你在好莱坞从事特效工作——Runway 可以让你在几秒钟之内添加大爆炸效果,而如果没有 AI 的话,你得花费大量的时间和金钱来做特效。CBS 就是他们的客户之一,使用 Runway 之后,他们的晚间秀剪辑时间从 5 小时缩短到了 5 分钟。New Balance 是另一个客户,他们在 Runway 上用定制的生成模型来设计下一代运动鞋。
Runway 的定价对于任何 SaaS 爱好者来说都很熟悉:
我们还看到人工智能公司转向了其他我们熟悉的商业模式。Midjourney 依赖消费者订阅。去年 12 月,Lensa 开始风靡全球,其商业模式是免费增值 + 小额支付。50 个一组的自定义头像花掉了我 8.99 美元。
1/ Lensa的兴起可以作为消费者行为的一个有趣的案例研究:Lensa app其实早在 2018 就有了,但在推出四年之后的本周才升至应用商店的第一名。关键是Lensa 推出了AI 驱动的“魔法化身”功能。
当然了,Lensa 面临的挑战是防御能力;Lensa 的命脉建立在 Instagram、Twitter 和 TikTok 之上,它得弄清楚如何建立自己的护城河。(同样的问题对基于基础模型创立的 SaaS 公司也许同样适用,就像我们之前在 Jasper 与 ChatGPT 的关系中所看到的那样。)话虽如此,也许 Lensa 并不太关心护城河——据报道该公司在短短几周内就赚了 4000 到 5000 万美元,将来会出现许多能赚钱且对开发者很有意义的 AI 应用,它们无需(或可能也不希望)取得风投规模的成果。(编者注:小富即安)
PromptBase 这家富有创意的新公司采用的商业模式我们也很熟悉。PromptBase 是文本生成图像提示的交易市场——这可能是生成式人工智能的首批交易市场之一。想出正确的提示,从而制作出令人惊叹的 AI 艺术作品是非常困难的。最美的作品往往源自于详细的提示,而撰写提示本身就是一门手艺。以下是生成 Stable Diffusion 图像的示例提示:
一座具备遥远未来主义风格的城市,被笼罩在一个巨大的透明玻璃穹顶下,里面充斥着高楼大厦,位于一篇片只有大型沙丘的荒芜沙漠之中,有太阳的光线,Artstation,满天星的深空挂着一颗闪耀的太阳,大规模,有雾,非常写实,电影般的,彩色的。
PromptBase 上面交易的是类似这样冗长、高度具体的提示。到目前为止,该交易市场已有 11000 名用户。
关于AI 应用商业模式的走向,一个简短回答是我们可能会看到与上一代技术(及大型企业)相同的商业模式。也会有广告驱动的社交网络、小额支付驱动的 MMO(大型多人在线游戏)、按使用的定价模式。交易市场可能(再次)被证明是需要更多资本来扩大规模的业务,但将(再次)体现出强大的网络效应,从而建立起强大的护城河。SaaS 将(再次)证明是最理想的商业模式之一,尽管针对“企业型 SaaS 市场已经十分拥挤”的噪音,AI SaaS 型公司将需要一流的产品来消除大家的疑虑。
最后思考及关键问题
一旦某项技术普遍改变了各种商品或服务的生产方式,就会被称为是“通用技术”。Our World In Data 的团队认为,人类有两种主要的通用技术:1)农业革命赋予我们大规模的粮食生产,让我们从狩猎和采集过渡到农业;2) 工业革命赋予了我们大规模制造的能力。我认为互联网的出现——也就是数字革命——将标志着第三次革命的出现。但我也同意他们的观点,Transformative AI 是下一个通用技术:
这是一个激动人心的时刻。炒得过火了?也许有一点。但这种炒作也会吸引到推动该领域发展的人才;从某些方面来说,炒作有自我实现的成分。
人工智能不会自己发展。我们需要弄清楚如何与人工智能共存,并利用它来增强人类的能力。学校正在努力弄清楚如何应付 ChatGPT,有很多学校选择禁止它的使用。但我同意沃顿商学院教授 Ethan Mollick 的观点,他认为,“大型语言模型在未来几年内不会停止发展。我们需要找到一种办法来适应这些工具,而不仅仅是取缔它们。”今天的孩子将生活在一个到处都是人工智能的世界里;他们需要了解如何去驾驭那个世界。
当然,还有一些重大的伦理问题需要解决——技术的飞跃往往会在影响深远与反乌托邦这两个极端之间徘徊。我们需要弄清楚的问题包括:
谁为人工智能的错误负责?
谁是人工智能作品的创作者?是人工智能吗?还是开发者?或者是写提示的人?抑或是那些自己的作品被用来训练模型的人?
我们如何确定哪些是人造的,哪些是机器制造的?区分这两者的界线在哪里?
我们如何摆脱 AI 的偏见?
创业公司如何才能脱颖而出,并树立自己的护城河?
生态体系的价值在什么地方积累,价值创造应该如何分配?
人工智能会成为净就业创造者还是净就业破坏者?我们如何对因人工智能而失业的员工进行再培训?
要弄清楚的事情还有很多。大规模的技术进步往往会引起大规模的社会不和与争执,甚至还会导致冲突。这是悲观的看法。
我输入的提示:“生活在一个用人工智能建设的未来社会,赛博朋克风格,高分辨率”,Midjourney生成的结果
但我永远是个技术乐观主义者,对我来说这是一个激动人心的时刻——只要我们采取正确的保护措施即可。我以前曾引用过 Midjourney 的 David Holz 的这句话,但我喜欢的是它对机会的思考方式:
我们不认为这跟艺术或深度伪造(deepfakes)有关 ,而是跟我们如何扩展人类的想象力有关。什么意思?当计算机的视觉想象力比 99% 的人类都要擅长时,这意味着什么?这并不意味着我们将停止想象。汽车跑得比人快,但这并不意味着我们就不走路了。当我们需要远距离运输大量物品时,我们需要引擎,需要飞机、轮船或者汽车的引擎。我们把这项技术看作是想象力的引擎。所以这是一个非常积极、非常人文主义的东西。
Midjourney对提示“想象力引擎”的诠释
再用一个令人兴奋的想法来结束本文:生成式人工智能很快就会与其他成熟的技术发生冲突,比如 VR 和 AR。想象一下生成沉浸式三维虚拟世界的文本提示。这可能会在不久之后成为可能。技术发展往往非常迅速:在人的一生(63 年)之内,我们就从莱特兄弟首次实现飞行(1903 年)发展到了将人送上距离地球 384400 公里之遥的月球(1969 年)。而今天出生的人们,他们将目睹人工智能重塑人类生活、工作和社会的方方面面。