智能手语识别与发音系统（手语和静态手势识别）

无声剧 2023-05-21 04:53:13

智能手语识别与发音系统（手语和静态手势识别）(1)

手势识别是机器视觉领域的一个开放问题，机器视觉是计算机科学的一个领域，它使系统能够模拟人类的视觉。手势识别在改善人机交互方面有许多应用，其中之一是在手语翻译领域，其中一个是将符号手势的视频序列翻译成自然语言。

数据集

数据集格式的模式与经典的MNIST紧密匹配。每个训练和测试用例都表示一个标签(0-25)，作为每个字母a -Z的一对一映射(由于手势动作，9=J或25=Z没有用例)。训练数据(27455例)和测试数据(7172例)是大约一半的大小标准MNIST否则类似的标题行标签,pixel1,pixel2 ....pixel784，它表示一个28x28像素的图像，灰度值在0-255之间。数据集地址：https://github.com/Omkar-Ajnadkar/Neural-Network-Projects/tree/master/Sign Language and Static-Gesture Recognition/dataset。

Python代码如下：

import pandas as pd

import numpy as np

train = pd.read_csv('dataset/sign_mnist_train.csv', header=0)

test = pd.read_csv('dataset/sign_mnist_test.csv',header=0)
数据预处理
由于数据集已经为图像提供了CSV值，我们不需要做太多的预处理。如果图像的数据集是原始格式的，在进行任何进一步的操作之前，我们必须将它们转换为CSV格式数组。我们仍然执行以下步骤:
Separate features(784像素列)和输出(结果标签)
重塑特征
对结果进行One hot编码

Python代码如下：

X_train = train.drop(['label'],axis=1)

X_test = test.drop(['label'], axis=1)

X_train = np.array(X_train.iloc[:,:])

X_train = np.array([np.reshape(i, (28,28)) for i in X_train])

X_test = np.array(X_test.iloc[:,:])

X_test = np.array([np.reshape(i, (28,28)) for i in X_test])

num_classes = 26

y_train = np.array(y_train).reshape(-1)

y_test = np.array(y_test).reshape(-1)

y_train = np.eye(num_classes)[y_train]

y_test = np.eye(num_classes)[y_test]

X_train = X_train.reshape((27455, 28, 28, 1))

X_test = X_test.reshape((7172, 28, 28, 1))

模型

我们将使用Keras构建简单的CNN（卷积神经网络）。

CNN共有7层：
第一卷积层 relu
第一个Max Pooling
第二卷积层 relu
第二个Max Pooling
Flattening
第一个全连接层 relu
输出层用 sigmoid

Python实现如下：

from keras.models import Sequential

from keras.layers import Convolution2D

from keras.layers import MaxPooling2D

from keras.layers import Flatten

from keras.layers import Dense

from IPython.display import SVG

from keras.utils.vis_utils import model_to_dot

import pydot

def model():

classifier = Sequential()

classifier.add(Convolution2D(filters=8,

kernel_size=(3,3),

strides (1,1),

padding='same',

input_shape=(28,28,1),

activation='relu',

data_format='channels_last'))

classifier.add(MaxPooling2D(pool_size=(2,2)))

classifier.add(Convolution2D(filters=16,

kernel_size=(3,3),

strides=(1,1),

padding='same',

activation='relu'))

classifier.add(MaxPooling2D(pool_size=(4,4)))

classifier.add(Flatten())

classifier.add(Dense(128, activation='relu'))

classifier.add(Dense(26, activation='sigmoid'))

classifier.compile(optimizer='adam',

loss='categorical_crossentropy',

metrics=['accuracy'])

return classifier

然后将模型拟合到训练集上并检查测试集上的准确度。

classifier.fit(X_train, y_train, batch_size = 100, epochs = 100)

y_pred = classifier.predict(X_test)

请注意，y_pred中的输出采用数组格式，每个训练示例包含26个值。我们必须查看哪一个最大，然后再次创建y_pred。
结果
训练集准确度： 96.06 %

测试集准确度： 87.77%
,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

智能手语识别与发音系统（手语和静态手势识别）

猜您喜欢

天天象棋楚汉争霸67关攻略（天天象棋楚汉争霸66关5步绝杀）

山东水果萝卜哪里最好（水果萝卜展新颜）

变频器简易故障如何检查处理（变频器现场调试与故障排除案例）

73岁农民夫妇种了十几种水果（60岁农村大妈年初种下6亩水果萝卜）

唐艺昕陈妍希我们来了（陈妍希我们来了再扮古装）

战狼1犯我中华者谁最厉害（犯我中华者虽远必诛）

山茶花洁白（山茶花开了）

热门推荐

排行榜