Feast on AWS 解决方案

背景&引言

众所周知，AI 算法模型开发落地有三个主要阶段：数据准备、模型训练、模型部署。目前已经有较多厂商及开源社区推出通用的AI、MLOps平台支撑模型训练与部署阶段，但主要偏重于机器学习模型开发，部署，服务层面，自 2019 年后才陆续有各厂商推出数据准备支撑阶段的产品及服务，即特征平台(如AWS Sagemaker feature Store)。

特征平台的主要能力包含：特征注册中心、离线存储&消费、在线存储&消费、离线&在线特征同步，特征版本，尤其特征版本最为重要，实现特征point-in-time cross join，避免特征穿越造成train-server skew的重要功能特性。

各个厂商在特征平台的架构和实现方式方面迥然不同，缺乏跨平台的通用的特征库方案。

Feast (Feature Store) 是一套开源特征库框架，纯 python 框架，与 Pandas dataframe 无缝集成，对ML，AI算法工程师友好，它提供了在线，离线特征库注册，特征库存储，特征数据摄取、训练数据检索、特征版本、离线-在线特征同步等功能；且具有云原生亲和力，可以构建在多个公有云平台上。

本文介绍了Feast框架的整体架构及设计思路，并step by step详细说明了Feast on AWS集成和使用，包括安装部署离线/在线特征库、使用特征库、特征库同步的方法等。对于使用Feast开源框架构建MLOps平台的用户，本文可以作为快速构建和开发指南。

Feast 整体架构

Feast的主要功能组件：

Feast Repo&Registry:轻量级的目录级及 Split 文件数据库格式 Repository，用于特征库基础设施及元数据注册
Feast Python SDK/CLI: 开发构建及使用特征库的主要功能组件
- Feast Apply:命令行工具执行安装部署配置的特征库到底层基础设施，并且注册特征库元数据到 Runtime 运行态
- Feast Materialize:离线-在线特征库版本同步工具
- Get Online Features:在线特征数据提取，调用对应的在线特征库基础设施 API 抽取特征数据，用于模型推断
- Get Historical Features:离线特征数据抽取，调用对应的离线特征库基础设施 API 抽取历史特征数据，用于模型训练或者特征组合
Online Store: 在线特征库，根据不同云厂商的 nosql 数据库承载，存储特征快照版本数据
Offline Store:离线特征库，根据不同云厂商数仓承载，存储特征历史版本数据

Feast On AWS 安装部署方案

依赖准备

Feast on AWS 使用 Redshift 作为离线特征库，需要Redshift集群(如果采用Spectrum 外部表，还需要 Spectrum 角色及Glue Catalog 权限）
Feast on AWS 使用DynamoDB 作为在线特征库，需要 DynamoDB 读写权限
可以用 Terraform 或者 CloudFormation 准备需要的 Redshift，DDB，IAM 角色等
以下使用 Terraform 为例安装部署 Feast 需要的Redshift，S3，IAM 角色等各种基础设施

1) 安装部署 Terraform

sudo yum install python3-devel
sudo yum install -y yum-utils
sudo yum-config-manager —add-repo https://rpm.releases.hashicorp.com/AmazonLinux/hashicorp.repo
sudo yum -y install terraform

2) 编写 Terraform 配置文件

project: feast_aws_repo
registry: data/registry.db
provider: aws
online_store:
  type: dynamodb
  region: ap-southeast-1
offline_store:
  type: redshift
  cluster_id: feast-demo2-redshift-cluster
  region: ap-southeast-1
  database: flinkstreamdb
  user: awsuser
  s3_staging_location: s3://feastdemobucket
  iam_role: arn:aws:iam::**********:role/s3_spectrum_role

3) 构建基础设施

cd infra
sudo terraform init
sudo terraform plan -var="admin_password=xxxxx"
sudo terraform apply -var="admin_password=xxxxx"

4) 如果需要 Spectrum 承载离线特征库，需要在 Redshift 中建立 Spectrum 外部 schema，以便指向Glue Catalog 中的 s3 外部表

aws redshift-data execute-statement \
    —region ap-southeast-1 \
    —cluster-identifier feast-demo-redshift-cluster \
    —db-user awsuser \
    —database dev —sql "create external schema spectrum from data catalog database 'flinkstreamdb' iam_role \
    'arn:aws:iam::**********:role/s3_spectrum_role' create external database if not exists;“

Feast 特征库 Repository 准备

1) 依赖安装及升级

pip3 install -U numpy==1.21
pip3 install feast[aws]

2) 初始化 repository

feast init -t xxxxx（repository_name）
AWS Region (e.g. us-west-2): ap-southeast-1
Redshift Cluster ID: feast-demo-redshift-cluster
Redshift Database Name: flinkstreamdb
Redshift User Name: awsuser
Redshift S3 Staging Location (s3://*): s3://feastdemobucket
Redshift IAM Role for S3 (arn:aws:iam::*:role/*): arn:aws:iam::xxxxxx:role/s3_spectrum_role

创建好的特征库的 schema 及骨架示例：

$ tree ./feast_aws_repo/
./feast_aws_repo/
├── data
│   └── registry.db
├── driver_repo.py
├── feature_store.yaml

*.yam l配置指定 Feast repository 的基础环境资源（s3、Redshift、DDB 等)
*.py 配置特征库元数据，特征v iew 及 schema 等
db 保存基于 *.py 元数据构建后的特征组，特征库对象实例，以便运行态使用

安装部署后的feature_store.yaml示例：

project: feast_aws_repo
registry: data/registry.db
provider: aws
online_store:
  type: dynamodb
  region: ap-southeast-1
offline_store:
  type: redshift
  cluster_id: feast-demo2-redshift-cluster
  region: ap-southeast-1
  database: flinkstreamdb
  user: awsuser
  s3_staging_location: s3://feastdemobucket
  iam_role: arn:aws:iam::xxxxxxx:role/s3_spectrum_role

driver_repo 的司机行程特征库元数据示例：

from datetime import timedelta
from feast import Entity, Feature, FeatureView, RedshiftSource, ValueType
driver = Entity(
    name="driver_id",
    join_key="driver_id",
    value_type=ValueType.INT64,
)
driver_stats_source = RedshiftSource(
    table="feast_driver_hourly_stats",
    event_timestamp_column="event_timestamp",
    created_timestamp_column="created",
)

driver_stats_fv = FeatureView(
    name="driver_hourly_stats",
    entities=["driver_id"],
    ttl=timedelta(weeks=52),
    features=[
        Feature(name="conv_rate", dtype=ValueType.FLOAT),
        Feature(name="acc_rate", dtype=ValueType.FLOAT),
        Feature(name="avg_daily_trips", dtype=ValueType.INT64),
    ],
    batch_source=driver_stats_source,
    tags={"team": "driver_performance"},
)

部署成功后可以在Redshift看到离线特征库的 Spectuam schema 及库表，DDB中可以看到在线特征库的表

Redshift 离线特征库：

DDB在线特征库：

使用Feast SDK API进行特征库操作

连接特征库

安装部署完成后，在 python 代码中，可以方便的通过加载注册的 repository 路径，来连接到特征库及特征组

在 repository 中注册的特征组，也可以直接 import 实例化

from datetime import datetime, timedelta
import pandas as pd
from feast import FeatureStore
from driver_repo import driver, driver_stats_fv
fs = FeatureStore(repo_path="./")
>>> print(fs)
<feast.feature_store.FeatureStore object at 0x7f48d47098d0>
>>> print(driver_stats_fv)
{
  "spec": {
    "name": "driver_hourly_stats",
    "entities": [
      "driver_id"
    ],
    "features": [
      {
        "name": "conv_rate",
        "valueType": "FLOAT"
      },
      {
        "name": "acc_rate",
        "valueType": "FLOAT"
      },
      {
        "name": "avg_daily_trips",
        "valueType": "INT64"
      }
    ],
    "tags": {
      "team": "driver_performance"
    },
    "ttl": "31449600s",
    "batchSource": {
      "type": "BATCH_REDSHIFT",
      "eventTimestampColumn": "event_timestamp",
      "createdTimestampColumn": "created",
      "redshiftOptions": {
        "table": "feast_driver_hourly_stats"
      },
      "dataSourceClassType": "feast.infra.offline_stores.redshift_source.RedshiftSource"
    },
    "online": true
  },
  "meta": {}
}

离线特征数据提取

通过 Feast get_historical_features API，可以抽取离线特征库数据用于离线训练或特征组合

features = ["driver_hourly_stats:conv_rate", "driver_hourly_stats:acc_rate"]
entity_df = pd.DataFrame(
         {
             "event_timestamp": [
                 pd.Timestamp(dt, unit="ms", tz="UTC").round("ms")
                 for dt in pd.date_range(
                     start=datetime.now() - timedelta(days=3),
                     end=datetime.now(),
                     periods=3,
                 )
             ],
             "driver_id": [1001, 1002, 1003],
         }
     )
 training_df = fs.get_historical_features(
         features=features, entity_df=entity_df
     ).to_df()

如上我们抽取特征标识（entity 字段为 driver_id）为 1001,1002,1003, 时间版本为最近 3 天的离线特征库数据

>>> training_df
          event_timestamp  driver_id  conv_rate  acc_rate
0 2022-07-04 02:33:54.114       1001   0.036082  0.707744
1 2022-07-05 14:33:54.114       1002   0.522306  0.983233
2 2022-07-07 02:33:54.114       1003   0.734294  0.034062

离线特征组合

多个特征组需要联合并抽取作为模型训练时，get_historical_features 可以指定多个特征 view 的 features，基于event_timestamp 做 point-in-time 关联，从而得到同一时间版本的离线特征组合的数据

 feast_features = [
        "zipcode_features:city",
        "zipcode_features:state",
        "zipcode_features:location_type",
        "zipcode_features:tax_returns_filed",
        "zipcode_features:population",
        "zipcode_features:total_wages",
        "credit_history:credit_card_due",
        "credit_history:mortgage_due",
        "credit_history:student_loan_due",
        "credit_history:vehicle_loan_due",
        "credit_history:hard_pulls",
        "credit_history:missed_payments_2y",
        "credit_history:missed_payments_1y",
        "credit_history:missed_payments_6m",
        "credit_history:bankruptcies",
    ]
training_df = self.fs.get_historical_features(
            entity_df=entity_df, features=feast_features
).to_df()

如上代码示例，在抽取离线特征时，关联了 credit_history 和 zipcode_features 两个离线特征库的相应特征字段，Feast 会在后台拼接Redshift Sql 关联对应的库表及 event_timestamp 等条件

离线特征数据同步在线特征库

通过Feast 提供的 materialize cli，可以将指定时间版本的 Redshift 离线特征数据同步到 DynamoDB 的在线特征库中

materialize-incremental cli 会记录该 repository 特征库下每次同步的增量时间版本，因此每次执行会把自上次执行至今的最新数据增量同步到 DynamoDB

CURRENT_TIME=$(date -u +"%Y-%m-%dT%H:%M:%S")
feast materialize-incremental $CURRENT_TIME

Materializing 1 feature views to 2022-07-07 08:00:03+00:00 into the sqlite online
store.
driver_hourly_stats from 2022-07-06 16:25:47+00:00 to 2022-07-07 08:00:03+00:00:
100%|████████████████████████████████████████████| 5/5 [00:00<00:00, 592.05it/s]

当然也可以使用 materialize 显式指定开始时间（startdt）和截止时间（enddt）, feast会将指定时间版本的离线特征库数据同步到在线特征库

feast materialize 2022-07-13T00:00:00 2022-07-19T00:00:00

Materializing 1 feature views from 2022-07-13 00:00:00+00:00 to 2022-07-19 00:00:00+00:00 into the dynamodb online store.
driver_hourly_stats:
100%|█████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 51.18it/s]

在线特征查询

>>> online_features = fs.get_online_features(
         features=features, entity_rows=[{"driver_id": 1001}, {"driver_id": 1002}],
     ).to_dict()
>>> print(pd.DataFrame.from_dict(online_features))
   acc_rate  conv_rate  driver_id
0  0.179407   0.984951       1001
1  0.023422   0.069323       1002

Feast offline store on Spark 方案

上文我们看到的是Feast 依托AWS Redshift作为离线特征库存储和特征抽取的方案，虽然安装部署简介明快，上手方便，但Redshift定位是云服务数据仓库，虽然在sql兼容性、扩展性上优秀，但灵活性不足，如：

离线特征抽取必须要指定 event_timestamp 版本，无法直接查询最新 snapshot
point-in-time 关联查询直接拼接partition over分组sql并下压，海量数据情况下，多历史版本的特征库time travel抽取时会膨胀数倍，存在性能瓶颈

Feast自0.19版本开始，支持Spark作为离线特征库历史数据提取，版本查询，同步在线特征库的计算框架

Spark作为高性能分布式计算引擎，在海量数据场景下性能优异，且使用Spark时，Feast FeatureView的DataSource既可以是指向Hive中的表，也可以是指向对象存储上的文件，通过Hive表可以兼容诸如Hudi、iceberg等多种数据湖架构。

同时，通过Spark 离线特征库抽取的特征数据，Feast将其封装为Spark DataFrame，从而可以方便的加载到S3分布式存储，因而也避免了Pandas DataFrame保存在本地磁盘的存储空间问题。

Feast point-in-time correct join Spark 实现

point-in-time correct join，根据源码来看，使用pySpark+SparkSQL实现，因此整体思路和Redshift类似：

将entity_df由DataFrame转化为Spark DataFrame，并注册成临时表
根据用户指定要关联的features，找到对应的FeatureView，进而找到底层的DataSource和相关的元数据
根据以上信息，即query_context，通过jinjia渲染一个SparkSQL，并提交给Spark集群计算
计算完成的结果就是实现point-in-time correct join之后的training dataset

Feast offline store on AWS EMR安装部署

AWS EMR是全托管的hadoop大数据集群，提供了良好的弹性伸缩，高可用，存算分离等特性，且通过EMRFS原生集成AWS S3云存储，用于承载Feast的Spark离线特征库具有天然的亲和力。

以下详细介绍Feast Spark离线特征库在AWS EMR的安装部署步骤及使用方法

启动AWS EMR集群

AWS EMR的启动方法本文不再赘述，感兴趣的同学可以参阅AWS EMR文档

此处选择emr 6.5版本，Spark 3.1.2

Offline store on EMR特征库配置

我们在emr主节点上可以feast init 特征库，从而直接利用AWS EMR上spark与S3的原生集成，通过emrfs读写S3数据湖上各种格式文件，不再需要hadoop s3开源lib的支持

feast init my_project后，在该特征库的yaml配置文件中，指定Feast spark的对应参数即可：

project: feast_spark_project
registry: data/registry.db
provider: local
offline_store:
    type: spark
    spark_conf:
        spark.master: yarn
        spark.ui.enabled: "true"
        spark.eventLog.enabled: "true"
        spark.sql.catalogImplementation: "hive"
        spark.sql.parser.quotedRegexColumnNames: "true"
        spark.sql.session.timeZone: "UTC"

配置完成后，通过feast apply cli同样部署到EMR spark

注：在EMR master节点上pyspark lib路径需要在环境变量中设置，以便feast找到spark的home目录及相应配置

source /etc/spark/conf/spark-env.sh
export PYTHONPATH="${SPARK_HOME}/python/:$PYTHONPATH"
export PYTHONPATH="${SPARK_HOME}/python/lib/py4j-0.10.9-src.zip:$PYTHONPATH"

Feast on Spark 离线特征库元数据

from feast.infra.offline_stores.contrib.spark_offline_store.spark_source import ( SparkSource,)

driver_hourly_stats= SparkSource(
        name="driver_hourly_stats",
        query="SELECT event_timestamp as ts, created_timestamp as  created, conv_rate,conv_rate,conv_rate FROM emr_feature_store.driver_hourly_stats",
        event_timestamp_column="ts",
        created_timestamp_column="created"
        )

Feast的sparkSource提供了query， table，及原始raw文件路径几种初始化方法，本文中使用query方式。

需要注意query方式中，需要指定event timestamp field特征字段以便Feast识别作为point-in-time cross join时间版本抽取及特征join的依据

Feast Spark offline store 执行

配置Spark作为Feast offline store后，通过AWS EMR上spark history UI，可以清楚的看到其get_historical_features方法，底层Feast使用SparkSQL 创建临时视图，拼接event time join的sql，并查询上文中source数据湖上hive库表等各个步骤的业务逻辑：

跟踪Spark history UI上，Spark Sql的各个query可以看到，Feast的get_historical_features方法执行时，会构造临时表entity_dataframe，即用户调用get_historical_features方法时，传入的样本列表。再构建driver_hourly_stats_base，即需要join及point-in-time查询的即样例特征时序表

== Parsed Logical Plan ==
'CreateViewStatement [driver_hourly_stats__cleaned], (

    WITH driver_hourly_stats__entity_dataframe AS (
        SELECT
            driver_id,
            entity_timestamp,
            driver_hourly_stats__entity_row_unique_id
        FROM entity_dataframe
        GROUP BY
            driver_id,
            entity_timestamp,
            driver_hourly_stats__entity_row_unique_id
    ),

driver_hourly_stats__base AS (
        SELECT
            subquery.*,
            entity_dataframe.entity_timestamp,
            entity_dataframe.driver_hourly_stats__entity_row_unique_id
        FROM driver_hourly_stats__subquery AS subquery
        INNER JOIN driver_hourly_stats__entity_dataframe AS entity_dataframe
        ON TRUE
            AND subquery.event_timestamp <= entity_dataframe.entity_timestamp

            
            AND subquery.event_timestamp >= entity_dataframe.entity_timestamp - 86400 * interval '1' second
            

            
            AND subquery.driver_id = entity_dataframe.driver_id
            
    ),

后续的subquery、dedup及cleaned子查询，会基于以上的两张基础表，进行基于特征标识字段driver_id和时序时间戳字段event_timestamp的分组排序，剔重等操作，最后join样本列表临时表entity_dataframe，整个流程与Redshift上基本一致

driver_hourly_stats__subquery AS (
        SELECT
            ts as event_timestamp,
            created as created_timestamp,
            driver_id AS driver_id,
            
                conv_rate as conv_rate, 
            
                acc_rate as acc_rate
            
        FROM (SELECT driver_id,event_timestamp as ts, created_timestamp as  created, conv_rate,acc_rate,avg_daily_trips FROM emr_feature_store.driver_hourly_stats)
        WHERE ts <= '2022-07-25T03:27:05.903000'
        
        AND ts >= '2022-07-21T03:27:05.903000'
        
    ),

 driver_hourly_stats__dedup AS (
        SELECT
            driver_hourly_stats__entity_row_unique_id,
            event_timestamp,
            MAX(created_timestamp) as created_timestamp
        FROM driver_hourly_stats__base
        GROUP BY driver_hourly_stats__entity_row_unique_id, event_timestamp
    ),
driver_hourly_stats__latest AS (
        SELECT
            event_timestamp,
            created_timestamp,
            driver_hourly_stats__entity_row_unique_id
        FROM
        (
            SELECT *,
                ROW_NUMBER() OVER(
                    PARTITION BY driver_hourly_stats__entity_row_unique_id
                    ORDER BY event_timestamp DESC,created_timestamp DESC
                ) AS row_number
            FROM driver_hourly_stats__base
            
                INNER JOIN driver_hourly_stats__dedup
                USING (driver_hourly_stats__entity_row_unique_id, event_timestamp, created_timestamp)
            
        )
        WHERE row_number = 1
    )

API结果返回可以to_df为Spark的Dataframe，从而实现remote 存储离线特征库抽取结果数据的操作，这也从另一方面解决了原有Redshift离线特征存储，特征抽取只能返回pandas Dataframe的劣势，在大数据量离线特征场景下更有优势

总结

综上所述，Feast 框架整体架构和在 AWS 的构建是非常简洁明快的，对构建MLOps平台的用户而言，其主要有价值的优势如下：

同时提供了离线，在线特征库，离线-在线特征库快照版本同步功能
轻量级，快速部署使用，代码即配置，feast apply 即可部署到AWS
通过 repository 文件系统隔离特征库，方便MLOps多租户多CICD协同开发
API 抽象程度高，贴近 AI/ML 算法工程师业务语言

对于海量离线特征数据抽取时point-in-time cross join的版本查询数据膨胀的业界难点，Feast也可以通过on EMR Spark的构建方式，优化解决其性能问题

参考资料

AWS Sagemaker Feature Store: https://docs.thinkwithwp.com/zh_cn/sagemaker/latest/dg/feature-store.html

Feast官方：https://docs.feast.dev/getting-started/architecture-and-components/overview

AWS EMR集群部署：https://docs.thinkwithwp.com/zh_cn/emr/latest/ManagementGuide/emr-what-is-emr.html

亚马逊AWS官方博客