一个End-to-end手势识别模型

def End2endNet(pretrained_weights=None, input_size=(240, 320, 3)):
    inputs = Input(input_size)

    conv1 = Conv2D(80, 3, activation='relu', padding='same', kernel_initializer='he_normal')(inputs)
    pool1 = MaxPooling2D(pool_size=(2, 2), strides=[2, 2])(conv1)

    conv2 = Conv2D(160, 3, activation='relu', padding='same', kernel_initializer='he_normal')(pool1)
    pool2 = MaxPooling2D(pool_size=(2, 2), strides=[2, 2])(conv2)

    conv3 = Conv2D(320, 3, activation='relu', padding='same', kernel_initializer='he_normal')(pool2)
    pool3 = MaxPooling2D(pool_size=(2, 2), strides=[2, 2])(conv3)

    conv4 = Conv2D(640, 3, activation='relu', padding='same', kernel_initializer='he_normal')(pool3)
    drop4 = Dropout(0.25)(conv4)

    conv5 = Conv2D(320, 3, activation='relu', padding='same', kernel_initializer='he_normal')(drop4)
    pool5 = MaxPooling2D(pool_size=(2, 2), strides=[2, 2])(conv5)
    Flat5 = Flatten()(pool5)
    Dense6 = Dense(160, activation='relu', kernel_initializer='he_normal')(Flat5)
    Dense7 = Dense(6, activation='softmax')(Dense6)

    model = Model(inputs=inputs, outputs=Dense7)

    model.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

    model.summary()

    if pretrained_weights:
        model.load_weights(pretrained_weights)

    return model

Loss function

这是一个多分类问题，我们采用了 $categorical_crossentropy$ 为loss function.

Activation function

网络前面的CNN层的Activation function都是 $relu$ , 最后一个Dense层的Activation function是 $softmax$ .

模型可视化

模型看起来如下图所示。细心的读者可能发现网络结构和UNET很像。是的，我们直接UNET作者的画图风格绘制网络结构图。

训练

这里我们给出Quick start

首先给你的环境安装合适的Opencv
git clone this project 并安装依赖

git clone https://github.com/nanguoyu/End2end-model-for-hand-gesture-recognition.git
cd End2end-model-for-hand-gesture-recognition
pip install -r requirements.txt