亚马逊AWS官方博客
技术领导者如何为生成式 AI 做好准备
人们总是高估一项科技所带来的短期效益,却又低估它的长期影响。
— 罗伊·阿玛拉(Roy Amara),阿玛拉定律
我一直觉得新技术引爆公众视野的那一刻很有趣,比如首个电视广播、载人飞船、或者视频会议。这些事情让一些之前很小众的技术或者概念广为人知。正如阿玛拉定律里所表达的那样,这些事情往往开局都不是很成功,被人们赋予了过高的期待。任何一项能走到这一刻的技术,背后都有着几十年的积累,正如创新作业的 S 曲线描述的那样。我们可以回想一下之前虚拟世界技术广为人知的故事。当预期超出了现实,愿意保持好奇心钻研学习、能够扎根于现实世界客户的需求(如客户想要更沉浸式的体验)的组织和领导者,更能在虚拟世界技术成为主流时捷足先登。
当下在公众视野中最火爆的新技术应该就是生成式 AI 了。对于大部分人来说,这项技术好像突然就出现了。但是如果你深挖其过去,你就会发现这项技术发展的每一步都有迹可循,从 1958 年发明的 Mark I 感知机到 20 世纪后半叶的神经网络。
生成式 AI 的实现离不开统计技术的进步、海量数据的公开、以及云技术的出现。关于生成式 AI,你可能经常听到两个术语——基础模型(Foundation Model)和大语言模型(Large Language Mode)。基础模型是基于海量结构化和非结构化数据训练的机器学习模型,通过微调即可以用来执行更加具体的任务。大语言模型是基础模型的一个子集,主要用来理解和生成类人文字表达。这些模型更适用于如翻译、回答问题、总结信息、创建或者识别图片等场景。
亚马逊云科技和生成式 AI
亚马逊云科技对于基础模型的投资和使用已经进行很多年了,涉及业务包括亚马逊网站的搜索服务和亚马逊语音助理 Alexa 的对话功能。在媒体对于新技术铺天盖地的宣传和营销中,我们至少应该对于这些技术的“是什么”和“为什么”有着清晰且实际的理解。
自 Amazon SageMaker 服务于 2017 年推出以来,亚马逊云科技就通过各种机器学习和人工智能服务为技术人员和非技术人员提供源源不断的服务。在这些技术的深远影响下,我们的使命是让更多的人都能够获得这样的服务。在最近发布的各项公告中,我们也持续秉承着这样的使命,以一种更开放的方式为各组织机构提供它们需要的能力。例如,Amazon Bedrock 可以为客户提供各种预训练模型,这些模型可以通过客户自己的数据进行定制化,同时保障客户数据安全,并借助云架构来安全且大规模地驾驭这些能力。企业不需要再考虑模型托管、训练、或监控方面的问题,可以把精力集中在结果导向上。
Amazon Bedrock 始终秉承着一个简单的事实——单一一个解决方案或者一个模型,是无法解决企业面临的所有业务问题的。 一些组织机构也已经意识到,费那么多力气将企业的保密数据注入到公共模型,也无法解决所有业务问题。
生成式 AI 不是什么灵丹妙药,但也不仅仅是一个好用点的搜索引擎,现在几乎所有人都已经知道这项技术。这其中蕴含的潜力是巨大的。想象一下,医药企业可以加速基因疗法的设计、借款人可以跟贷款方充分联系,快速获得贷款审批、以及天南海北的人们都可以通过更广泛的知识和教育链接获得各种各样的机会。我算是一个比较成熟的编码狂热粉,我一直希望能够借助于生成式 AI 提供的实时建议来提升我的编码技能。
所以作为企业信息部门、技术部门、以及数据部门的领导者,面对这项新技术你应该思考些什么?你能做些什么准备?下面是几个比较主要的方向。
坚持采用云端架构
不知道大家是否还记得小时候电视上总会说:“请勿自行在家中尝试”。对于生成式 AI,我也有类似的警告:“请勿在非云端尝试”。如果你想要团队成员把精力都放在解决问题和创新上,不为底层问题或者管理基础架构和许可成本浪费时间,那么上云是至关重要的。云计算能够为生成式 AI 赋能,为用户提供高性价比的数据湖、可持续供应的图形处理器(GPU)和算力、高速的网络、以及基于消耗的成本计算。同时,云端架构还融合了基于 AmazonTrainium 和 Inferentia 芯片组的计算实例以优化模型训练和推理性能,即便一些本地的解决方案切实可行,云服务仍然可以提供成本更低、性能更高、碳排放量更友好的解决方案。
打造好你的数据基石
再牛的房子建在垃圾地基上也不会长久,机器学习也是这个道理。对于生成式 AI 来说,业务数据的质大于量。
现在很多人都在说技术负债,但其实很多企业在不知不觉间也积累了很多数据负债。一般造成这种问题的原因包括数据质量管控不到位、数据源分散或者出现数据孤岛、缺乏数据素养、在打造产品前期没有或者很少考虑如何将数据整合到产品中,以及养成一种只会“说”数据而不会日常“用”数据的企业文化。现在,企业是时候要将这些基本原理夯实。毕竟,机器学习生活化的过程中都要涉及到数据整理和标签化。
不止于技术
生成式 AI 创造了一片令人惊奇的天地,但技术并不是凭空运转的。我们要认识到“意外后果法则”(law of unintended consequences)。首先要考虑你在运用 AI 时的道德立场、透明度、数据归属、安全性、以及隐私性。你如何确保这项技术是被正确地、公平地、恰当地使用呢?虽然我们一直强调要负责任地使用 AI,很多书籍如迈克尔·卡恩斯(Michael Kearns)的《讲伦理的算法(The Ethical Algorithm)》中也提到了这点,但仅仅有这些是不够的。我们要趁现在付诸行动!比如强调技能和世界观的多样性,保证参与创造和使用模型的人可以对应上客户的多样性,这有助于确保你提供服务的相关性,并在早期阶段识别可能存在的歧视问题。
基于这些想法进行训练,将其整合到管理和合规框架中,甚至可以运用到供应商的筛选过程中,帮助你筛选价值观相同的伙伴。
提升自己和团队的能力
AI 在给人们带来兴奋的同时也带来了担忧。它打开了知识、创新、和效率的大门,但是也让很多人开始担心自己的职业会被其取代。AI 的不断涌现让人们开始深切思考在未来什么技能不再被需要,什么技能仍然如日中天。所以作为领导者要考虑哪些技术能力是必备的,以及如何将其注入到自己的企业中。一些 Machine Learning University(https://thinkwithwp.com/machine-learning/mlu/)的课程可能有帮助,但是这还不够。批判性思维和问题解决导向等技能将变得尤为重要。我们最终想要的还是能在 AI 的辅助下解决业务挑战的人,他们能够批判性地看待和挑战机器学习模型给出的推理思路。由于生成式 AI 模型是提炼数据而不是提供成熟的答案,所以这些能力尤为重要。要给员工提供空间来锻炼这些能力,这样才能不断地淘换掉那些低价值的工作,无论这些工作是否是在机器学习辅助下完成的!
技能提升并不只是提升个人技能这么简单。汤姆·达文波特(Tom Davenport)的研究表明,35% 的首席数据官发现,通过开展数据和人工智能相关的项目,可以强有力地推动变革。大量企业已不再坚守数据孤岛孤军奋战,而是转向跨组织合作,这有助于开拓数据使用范围及其可能带来的效果。
开始了解使用案例
我很喜欢的一句话是“你要爱上的是问题,而不是解决方案”。这句话告诉我们虽然科技是一种非常好用的工具,但它也只是工具,我们最终的目标还是解决现实世界遇到的问题。
生成式 AI 可以帮助解决什么非常耗时、困难、或者难以解决的问题呢?你能够找出哪些数据来辅助这个过程呢?我们可以畅想这项技术可以带来的机会与可能,但是实际起步的时候最好从日常的小麻烦开始,这种小问题我们一般叫“纸划出来的口子”。这些小问题可以通过自动化解决吗?这样既能解放企业人员的时间,又能提升 AI 的理解能力。
例如,开发人员可以使用 Amazon CodeWhisperer 服务来感受生成式 AI 在提升产能效率、针对陌生 API 接口提供建议、提高编码安全性等方面的作用。我们通过内部定标分析发现此项服务可以提升 57% 的生产效率并提升代码任务成功率。这是一个大好的、近在眼前的成为代码产出标兵的机会!
最后,仰望星空的同时我们要记得脚踏实地。我们现在处于大语言模型的拐点阶段。有时候我们对人工智能了解得越深入,好像知道得越不够多。在接触生成式 AI 时,记得抱有一种开放、好奇的心态,但是不要相信那些天花乱坠的炒作。批判性地看待我们读到的东西,不要相信有所谓最好的模型。我很高兴亚马逊云科技发布了 Amazon Bedrock 服务,这也是我认为最好的方法,那就是针对不同的需求采用不同的基础模型。亚马逊云科技让更多构建者可以使用基础模型,提供各种商业和开源的基础模型。在 AI 业内有经验的人都能感受到,AWS 云端提供多种模型,比吊在单独一个模型上要好得多。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。