在不增加成本的情况下使
会员参与率提高 5%
将测试时间
从 1 到 2 个月缩短到不到一周
提高可扩展性,
可支持超过 1.1 亿会员
可在大约 15 分钟进行数十亿次预测,
而不需要 4 到 5 个小时
无需将数据移动到
单独的 ML 环境
概览
作为工作者和求职者的在线社区,Jobcase 使用机器学习(ML)模型分析其包含数百万个职位列表的数据库,以将会员与职位推荐进行匹配。该网站每月有超过 2000 万独立访客,每天进行数十亿次匹配。为了支持这种工作负载,该公司需要提高其基于机器学习的求职推荐引擎的可扩展性,同时保持成本效益。
Jobcase 已经在使用 Amazon Web Services(AWS)来摄取和存储超过 100TB 的压缩数据。但是,该公司希望显著降低在 Amazon Redshift(一个便于查询和合并数 EB 结构化和半结构化数据的数据仓库)与其机器学习环境之间移动大量数据的需求。Jobcase 通过使用 Amazon Redshift ML(分析师可以使用它在 Amazon Redshift 中使用熟悉的 SQL 命令创建、训练和应用机器学习模型),可以在短短几分钟内对数十亿条记录进行预测。通过 AWS,Jobcase 提高了可扩展性,同时降低了其成本/性能比。现在,该公司可以有效地支持其不断壮大的社区并更快地测试新功能。
机会 | 减少 ML 工作流程的开销
Jobcase 是一个社区支持的工作平台,全美超过 1.1 亿注册会员在这里互相帮助并寻找机会。许多求职网站偏向于专业职位,而 Jobcase 的搜索工具和社交功能则侧重于更广泛的日常角色,包括小时工和服务人员、商人和技术人员。确定强匹配可以让该公司为会员推荐高质量的工作,并帮助雇主雇用合格的劳动者。当有人在 Jobcase 上搜索工作机会时,该公司会分析其目录中大约 3000 万个列表,将每个列表的质量与会员的偏好进行比较。它的基础设施必须能够大规模执行这些 ML 任务,每天检索和预测数十亿条记录。Jobcase 使用 Amazon Redshift 作为其主要数据仓库已有 8 年多的时间,并将其作为所有数据分析工作的事实来源。“我们的数据库每天接收数十亿个事件”,Jobcase 杰出工程师 Ajay Joshi 说。“我们所有生产系统生成的数据都将流入 Amazon Redshift。这是公司运营的基础。” 该公司之前的 ML 工作流需要将数据从 Amazon Redshift 移动到单独的环境以运行其 ML 软件,然后再将数据返回到数据库,这一工作流效率低下、容易出错且成本高昂。为了克服这些挑战,Jobcase 迁移到 Amazon Redshift ML,这样,它就可以在数据仓库内执行其 ML 功能,而无需移动数据。该公司于 2020 年 12 月开始测试 Amazon Redshift ML,并于 2021 年 7 月将其部署到生产环境中。“AWS 上的新系统基本上可以照原样融入我们的管道”,Joshi 说。“我们能够快速将多个模型部署到生产中,并立即开始产生收益。”
Amazon Redshift 是 Jobcase 公司发展过程中所拥有的最重要的工具之一。”
Ajay Joshi
Jobcase 杰出工程师
解决方案 | 使用 Amazon Redshift ML 提高可扩展性和速度
借助 Amazon Redshift ML,Jobcase 可简化根据其机器学习模型生成预测的方式。“通过 Amazon Redshift ML,我们可以将各种复杂的 ML 模型类直接应用于我们 Amazon Redshift 数据仓库中的数据”,Jobcase 高级数据科学家 Clay Martin 说。在 Amazon Redshift ML 上部署新模型后仅 4 周,该公司就发现特定电子邮件和推送通知渠道的参与度指标提高了 5%。“参与度指标提高 5% 意味着会员体验和会员保留率得到改善,收入也相应增加”,Martin 说。Jobcase 现在可以在几分钟内对数十亿条记录执行模型推理,而不是 4 到 5 小时。
推荐系统可为其数百万活跃会员中的每一位,生成特定的职位列表推荐以及搜索建议和公司推荐。随着社区的发展,维护复杂数据管道的成本也会增加。“我们平均每天进行 50-60 亿次离线预测,”Joshi 说。使用 Amazon Redshift ML 的数据库内本地推理功能,无需在不同环境之间传输数据。因此,Jobcase 可以节省资金并降低复杂性,同时扩大其 ML 工作负载的规模。
此外,Jobcase 可以比以前更快完成大型测试。“以前,我们必须在 1 到 2 个月内对小型用户群进行测试,”Martin 说。“通过使用 Amazon Redshift ML,我们可以在不到一周的时间内对整个数据集运行测试。” 这有助于以极快的速度构建和迭代公司的模型。此外,该服务可以自动训练和部署模型,这有助于提高 Jobcase 团队的工作效率。“就处理的数据量而言,我们是一家小公司”,Joshi 说。“快速运行预测,并且只需很少的工作即可在 Amazon Redshift ML 上部署模型,这让我们可以腾出时间专注于为我们产品的其他方面增加价值。”
同样重要的是,通过使用 Amazon Redshift ML,Jobcase 可以在不增加成本的情况下扩展其 ML 工作负载。“要在不同的系统上实现这种规模的高性能,我们将不得不花费大量的时间和金钱来对其进行优化”,Joshi 说。相反,该公司在开始使用 Amazon Redshift ML 时没有面临成本增加,因为该功能在其现有的 Amazon Redshift 集群中运行。即使该公司的用户群不断增长,在云端工作的弹性也使得 Jobcase 可以轻松地大规模工作。“在 AWS 上构建时,我们一直处于领先地位,”Joshi 说。“我们与 AWS 的团队建立了良好的关系,这非常了不起。”
成果 | 使用 AWS 进行大规模数据分析
Jobcase 计划将其对 Amazon Redshift ML 的使用扩展到组织内的其他团队。“我们已经看到其他团队的人员部署了 Amazon Redshift 模型,”Martin 说。“让整个组织都可以访问它是其可扩展性的另一个有价值的方面。” Jobcase 通过获得扩展其数据仓库和 ML 工作流的能力,同时做到不增加成本或使用过多资源,能够为其不断壮大的社区创造价值。Amazon Redshift 是 Jobcase 公司发展过程中所拥有的最重要的工具之一”,Joshi 说。
关于 Jobcase
Jobcase 是一个致力于为世界各地的劳动者提供支持和倡导的在线社区。该公司通过技术手段,服务于超过 1.1 亿会员,帮助他们获得工作、工具、资源和社区支持的知识,从而为任何角色做好准备。
更多 Professional Services 客户案例
行动起来
无论行业无论规模,每天都有各种机构在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。