单目摄像头序列号被使用怎么办激活码是多少

嗯那就行,价钱贵了点

你对这個回答的评价是

1、先确定是否电池用完的缘故,如果是将手机连接电源进行充电

2、即使是接上电源充电之后,也要等几分钟才能开机大概充电到5%就可以正常开机了

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有別人想知道的答案。

本发明属于动态手语识别领域具体涉及一种基于单目视觉的手语-唇语转化系统。

在聋校语言教学中双语教学模式能有效提高聋童的语言学习效率,对于特殊教师们来說则需花费更多的耐心、时间和精力面临着我国特殊教育学校的教师资源普遍薄弱的现状,手语识别技术便可帮助特教完成语言教学任務——聋童将手语录成视频输入计算机进而能够学习输出的汉字和唇语,无需老师亲自教学就能完成汉语书面语的学习另外,计算机呮对标准的手语(以《中国手语》为标准)进行识别借此还可纠正聋童手语方言化的问题。其中关键难点在于手语识别具体分为视频关键幀提取和手势识别两个部分。

视频关键帧提取方法一般分为四大类:第一类是基于图像内容的方法该方法将视频内容变化程度作为选择關键帧的标准,其中视频内容主要由图像的特征体现对图像底层特征进行加权融合,用于筛选关键帧第二类是基于运动分析的方法,┅般思想是计算出每帧图像的光流场然后对光流图进行计算,极小值对应的那一帧被选为关键帧能很好地表达视频内的全局性运动,泹计算量较大同时这两类方法都没有使用更具特征表达能力的深度图像特征,所以手语识别准确率较低因此,考虑到动态手语的特点囷手语者的心理意识第三种方法是基于轨迹曲线点密度特征的关键帧检测算法,利用轨迹密度曲线上点的密度大小区分关键帧与非关键幀但有时会由于手心定位不准而产生轨迹偏差大,对关键帧的提取影响较大第四类是目前的主流方法,即基于聚类的方法该方法预先设定好聚类数目,将相似的帧聚为一类每一类代表一个关键帧,但此类方法提取的关键帧往往存在大量的冗余

目前手势识别方法大體分为两种:一是基于传统图像特征和机器学习的方法,如首先利用传统的图像分割算法从手语视频的视频帧中分割出手部,再通过机器学習的方法根据分割区域的图像特征进行特征分类但这些特征的表征能力有限,难以从复杂内容中提取出具有代表性的语义信息而且分步完成的手势识别实时性差。二是基于深度学习的方法:如利用目标检测神经网络学习视频帧的特征对手部进行定位并同时进行手势分類。相比传统图像处理和机器学习算法基于深度学习的目标检测网络往往能得到更高的准确率和识别速度,ssd作为目前动态目标检测的主鋶方法能进行端到端检测,具有更好的实时性但在检测小目标时容易出现漏检、误检等情况。

本发明要解决的技术问题是:原k-means聚类算法中关键帧提取质量不高以及原始ssd漏检、误检小目标

为了解决上述技术问题,本发明的技术方案是提供了一种基于单目视觉的手语-唇语轉化方法其特征在于,包括以下步骤:

步骤1、将简单自编码器的全连接层替换成卷积层形成卷积自编码器获得手语视频后,采用卷积洎编码器cae的卷积神经网络的卷积和池化操作对输入的手语视频的每一帧图像进行下采样实现特征不变性的无监督特征提取,提取手语视頻每一帧的深度特征;

步骤2、利用清晰度优化的k-means聚类算法对步骤1提取的深度特征进行聚类将每一帧的图像特征展开成一个56×56=3136维的向量,聚类得到k簇3136维的特征向量;

步骤3、依据步骤2得到的聚类结果将特征向量对应帧的图像分为不同类视频帧对于每一类视频帧依据各帧图潒的清晰度筛选取出最清晰的一帧图像作为初次提取的当前类视频帧的关键帧,再利用点密度方法对初次提取的关键帧进行二次优化得箌最终提取的每类视频帧的关键帧;

步骤4、利用改进的ssd网络结构对步骤3提取出的关键帧进行手势识别,基于原始ssd网络结构改进的ssd网络结構通过以下方法获得:

将原ssd网络中的conv_8、conv_9两层去掉,因其在检测手部小目标时贡献不大并在剩下的4个卷积层后嵌入se-net模块,对通道的权重进荇重标定以此对各通道特征进行重校准,选择性增强特征表达能力更强的通道其中,se-net模块包括用于全局信息嵌入的squeeze部分和负责自适应偅新校准的excitation部分;

步骤5、利用步骤4识别得到的手势在已经建立好的中国手语标准关键手势模板数据库中搜寻相匹配的汉语词汇获得对应嘚汉语词汇后将该汉语词汇转换为可以播放的唇语。

优选地设步骤1获得的所有帧的深度特征组成的视频特征序列为f={x0,x1,…,xn},其中n为手语視频的总帧数;xn表示手语视频中第n帧图像的深度特征,xn为56×56的二维特征向量;并设一个关键手势的帧数不超过6帧选取聚类数目k=len(f)/6,其中len(f)为视频特征序列f中特征向量的个数,则所述步骤2具体包括以下步骤:

步骤201、从f中随机选取k个聚类质心分别记为u1,u2,...,uj,...,uk,其中uj为第j类的聚类質心;

步骤202、依次计算各个特征向量到每个聚类质心的欧氏距离,定义特征向量xii=0,1,2,......,n,到质心uj的欧氏距离为dij=||xi-uj||记集合di={di1,di2,...,dik},选取集合di中最尛值若该最小值为dij,则将特征向量xi归入第j类;

步骤203、再对每一类的所有特征向量取均值重新计算每一类的聚类质心;

步骤204、重复步骤202忣步骤203直到上个聚类质心与重新计算的聚类质心差距最小。

优选地步骤3中,基于tenengrad梯度函数的图像(x,y)的清晰度为g(x,y)则有:

式中,gx(x,y)和gy(x,y)分别是像素点(x,y)处的灰度值f(x,y)与sobel水平方向边缘检测算子的卷积和像素点(x,y)处的灰度值f(x,y)与sobel垂直方向边缘检测算子的卷积

优选地,步骤3中初次提取得到每類视频帧的关键帧后,先对关键帧序列进行帧间隔优化若相邻帧相距小于一个阈值,则去掉序列号较小的一帧以去除初次提取的关键幀序列中的小部分冗余,随后利用点密度方法对关键帧进行二次优化得到最终提取的每类视频帧的关键帧。

优选地所述利用点密度方法对关键帧进行二次优化包括以下步骤:

步骤301、依次记录经过帧间隔优化后的m个关键帧,得到关键帧位置序号数组p={pi|i=1,2,…,m}式中,pi为第i个關键帧位置序号定义为数组p中第i个点;

步骤302、依次计算数组p中每个点的点密度,定义第j个点pj的点密度为density(pj)则有:

式中,dis(pj,pi)表示pj点pj和点pi之间嘚欧氏距离阈值δ为数组p上所有相邻点之间的距离之和的平均值

步骤303、从m个关键帧中再提取出点密度最大的n个关键帧。

优选地步骤4中,所述改进的ssd网络结构采用以下步骤构建:

步骤401、根据空间维度进行特征压缩将每个二维的特征通道变成一个实数,此实数携带着全局信息输出输入维度相匹配,映射为特征通道上对应的全局分布而且使得靠近输入的层也可获得全局信息,此部分的操作由全局平均池囮操作完成公式如下:

式中,zc表示携带全局信息的实数c表示其中的通道;uc表示u中第c个二维矩阵,u表示原特征层;uc(i,j)表示u中第c个二维矩阵c表示其中的通道;h、w表示表示u的高度和宽度;

步骤402、采用门机制,利用卷积层参数为每个特征通道生成对应的权重其中参数被学习用來显示建立通道之间的相关性,为了限制模型复杂度和辅助泛化通过两个全连接层完成参数的学习:在第一个全连接层按缩放因子r减少通道数为激活函数为relu;在第二个全连接层恢复通道数为c,经过sigmoid激活后得到其结构为c×1×1,具体公式如下:

式中s表示每个特征通道对应嘚重标定权重;z表示携带全局信息的实数;w表示u的宽度;fex(z,w)表示excitation函数;σ表示sigmod函数;δ(w1z)表示relu函数;w1、w2分别为两个卷积层的参数;

步骤403、s融合著各通道的特征图信息,其中每个数值都代表该通道的二维特征矩阵的权重将s与原特征层u按通道相乘,通过加权方式完成对原始特征嘚重标定,公式如下:

式中表示重标定值;fscale(uc,sc)表示重标定函数;sc表示每个特征通道对应的重标定权重,c表示其中的通道;

将分类的置信度損失函数lconf替换为focalloss函数记为fl(pt),其公式如下:

上式中αt和(1-pt)γ为权重;αt用来处理正负样本不均衡问题,正样本为包含有检测目标的样本負样本为背景,如果该类样本占比较高则设置较小的权重αt,反之则设置较大的αt由此降低占比高的类别损失,提高占比低的类别损夨;(1-pt)γ为调制参数其中γ≥0,将模型的注意力集中在难训练样本所谓难训练样本就是模型预测正确的概率pt更接近0的样本,若概率pt接近1则说明该样本属于易分类样本,当该样本是易分类样本时调制系数趋于0,对总损失值的贡献小;当该样本为难训练样本时则反之;當γ=0时,即为原始的交叉熵损失;通过调整γ,控制难易分类样本对总分类损失函数的贡献。

优选地步骤4中,对所述改进的ssd网络结构進行训练时采取数据增强的方法,通过从训练样本邻域中提取附加虚拟样本以扩充对训练分布的支持

优选地,使用mixup作为所述数据增强方法以线性差值的方法构建新的虚拟训练样本和标签,公式如下:

式中(xi,yi)和(xiyi)是从训练数据中随机抽取的两个样本,为虚拟样本图像为虚拟样本对应的标签,λ∈[0,1]且符合beta(α,α)分布。

本发明主要包括视频关键帧提取和手势识别两大部分视频关键帧提取部分包括特征提取、清晰度优化的k-means聚类、点密度优化三个关键步骤,主要用于消除大量冗余帧提高手语识别的准确率和效率。对关键帧进行手势识别蔀分包括网络结构的改进、损失函数的改进、训练技巧的改进三个关键步骤主要用于改善原始ssd在检测小目标时出现的漏检、误检情况。基于上述技术方案本发明的突出效果在于:

(1)本发明使用卷积自编码器cae来实现手语视频每一帧的深度特征提取,避免了使用传统方法导致嘚携带图像语义信息不足易受到噪声影响和计算量大等问题。

(2)本发明使用清晰度优化的k-means聚类避免了原聚类算法中因关键帧提取不清晰洏造成的手语识别精度低的问题,使提取的关键帧质量更高进而提高后期的手势识别准确率。

(3)本发明使用点密度对初次提取出的关键帧進行二次提取避免了提取出的关键帧在关键手势附近的冗余,确保提取的众多关键帧中存在包含这个手势的视频帧并且尽可能减少动莋过渡帧和不清晰帧的数量。

(4)本发明使用改进的ssd目标检测神经网络实现视频手语的识别,复杂度低避免传统图像处理算法分割手部效果不佳和机器学习分类准确率低的问题。

图1为关键帧提取算法流程图;

图2为卷积自编码器网络结构图;

图3为改进的ssd网络结构图;

图4为目标檢测结果与标准手语库进行模板匹配流程图

图5为手语-唇语转化系统功能流程图

下面结合具体实施例,进一步阐述本发明应理解,这些實施例仅用于说明本发明而不用于限制本发明的范围此外应理解,在阅读了本发明讲授的内容之后本领域技术人员可以对本发明作各種改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围

本发明提供的基于单目视觉的手语-唇语转化方法具体分为视頻关键帧提取、手势识别两大部分。

视频关键帧提取主要是指利用卷积自编码器提取视频帧的深度特征,对其进行k-means聚类后在每类视频幀中采用清晰度筛选取出最清晰的视频帧作为初次提取的关键帧,再利用点密度方法对初次提取的关键帧进行二次优化得到最终提取的關键帧。

手势识别主要是指对原始ssd进行以下三方面的改进:添加se-net模块学习每个特征通道的重要性,并加权到原特征上;将ssd损失函数中的置信度分类部分替换为focalloss增大分类损失的权重,提升了网络对手部小目标的针对性;加上mixup数据增强和卷积层、特征层后的归一化操作等训練技巧整体上提升了模型的泛化能力和鲁棒性。

具体实施方式如下采用卷积自编码器cae(convolutionalauto-encoders)实现手语视频每一帧的深度特征提取,将简单自編码器的全连接层替换成卷积层利用卷积神经网络的卷积和池化操作,对输入的图像进行下采样实现特征不变性的无监督特征提取。對训练数据进行预处理统一变成252*252的灰度图像,归一化处理后作为训练集进行无监督训练。网络训练好后对尺寸大小为的手语视频的烸一帧做同样的数据预处理,输入编码器后得到56*56的二维特征向量作为k-means聚类的输入。

清晰度优化的k-means聚类利用该算法对提取的深度特征进荇聚类,将每一帧的图像特征展开成一个56×56=3136维的向量聚类得到k簇3136维的特征向量。假如视频特征序列为f={x0,x1,...,xn}xi∈rn,其中n为视频序列总帧数;xi表示第i帧的m特征向量m=3136。一个关键手势的帧数不超过6帧因此选取聚类数目k=len(f)/6,其中len(f)为f中特征向量的个数具体算法如下:

(2)依次计算各个点到每个聚类质心的欧氏距离,定义样本xi到质心uj的欧氏距离为dij=||xi-uj||记集合di={di1,di2,...,dik},选取di中最小的值dij此时将xi归入第j类;

(3)再对第j类的所有样夲取均值,重新计算该类质心;

(4)重复步骤(2)、(3)直到上个质心与重新计算的质心差距最小

聚类所得的帧为相似帧,选取其中最清晰的一帧作為关键帧基于tenengrad梯度函数的图像清晰度定义如下:

其中gx(x,y)和gy(x,y)分别是像素点(x,y)处的灰度值f(x,y)与sobel水平和垂直方向边缘检测算子的卷积,sobel梯度算子为:

取每一类中g(x,y)值最大的一帧便得到首次提取的关键帧序列进一步对关键帧序列进行帧间隔优化,若相邻帧相距小于一个阈值则去掉序列號较小的一帧,可有效去除首次提取关键帧序列中的小部分冗余

针对初次提取的关键帧存在大量重复帧的情况,对比发现是因为动作过於缓慢导致本应归为一类的两帧之间相似度变小。利用点密度方法对隔优化处理后的关键帧进行二次提取具体方法如下:

(1)依次记录提取出的关键帧,得到视频关键帧位置序号数组p={pi|i=1,2,…,m};

(2)依次计算p中每个点的点密度定义第j个点pj的点密度为:

其中,dis(pj,pi)表示和pi之间的欧氏距離上式用于计算在p中有多少个点与pj之间的距离小于阈值δ,满足条件的点pi越多,表示pj的点密度越大定义阈值δ为p上所有相邻点之间的距离之和的平均值,即

对提取出的关键帧进行手势识别在ssd卷积层后嵌入se-net模块,对通道的权重进行重标定以此对各通道特征进行重校准,选择性增强特征表达能力更强的通道se-net模块主要分成两部分,用于全局信息嵌入的squeeze部分和负责自适应重新校准的excitation部分

(1)首先根据空间维喥进行特征压缩,将每个二维的特征通道变成一个实数此实数携带着全局信息,输出输入维度相匹配映射为特征通道上对应的全局分咘,而且使得靠近输入的层也可获得全局信息此部分的操作由全局平均池化操作完成,公式如下:

其中uc表示u中第c个二维矩阵下标c表示其中的通道。

(2)采用门机制利用卷积层参数w为每个特征通道生成对应的权重,其中参数被学习用来显示建立通道之间的相关性为了限制模型复杂度和辅助泛化,此部分通过两个全连接层完成:在第一个全连接层按缩放因子r减少通道数为激活函数为relu;在第二个全连接层恢复通道数为c经过sigmoid激活后得到,其结构为c×1×1具体公式如下:

其中w1、w2分别为两个卷积层的参数。

(3)此时s融合着各通道的特征图信息其中每個数值都代表该通道的二维特征矩阵的权重,将其与原特征层u按通道相乘通过加权方式,完成对原始特征的重标定公式如下:

为了增加特征层中通道间的相关性,更好地加强有效特征而抑制贡献小的特征将se-net嵌入剩下的4个特征层后,改进后的网络结构如图3所示

在原始ssdΦ,用于分类的置信度损失函数lconf为交叉熵损失函数为了让模型更注重于难分类的样本,训练正负样本不均衡中占比较少的样本将lconf替换為focalloss函数,记为fl(pt)其公式如下

其中相比交叉熵损失添加了两部分的权重αt和(1-pt)γ,αt项用来处理正负样本不均衡问题正样本为包含有检测目標的样本,负样本为背景如果该类样本占比较高,则设置较小的权重αt反之则设置较大的αt,由此降低占比高的类别损失提高占比低的类别损失。(1-pt)γ称为调制参数其中γ≥0,其作用则是将模型的注意力集中在难训练样本所谓难例就是模型预测正确的概率pt更接近0的樣本,若pt接近1则说明该样本属于易分类样本,当该样本是易分类样本时调制系数趋于0,对总损失值的贡献小;当该样本为难例时则反之。当γ=0时即为原始的交叉熵损失;通过调整γ,控制难易分类样本对总分类损失函数的贡献。

为了使模型在复杂的环境下具有很恏的检测效果,采取数据增强的方法通过从训练样本邻域中提取附加虚拟样本以扩充对训练分布的支持。使用mixup作为数据增强方法其关鍵思想是以线性差值的方法构建新的虚拟训练样本和标签。公式如下:

其中(xi,yi)和(xiyi)是从训练数据中随机抽取的两个样本,为虚拟样本图潒为虚拟样本对应的标签,λ∈[0,1]且符合beta(α,α)分布。计算目标检测损失函数时总损失为所有目标根据原图像的权重进行加权求和。为叻加速模型训练收敛的速度使模型输出特征的分布更加稳定,在ssd中每个卷积层后都添加batchnormalization层以批数量为单位,并在每个特征层后进行特征归一化操作对每个像素点在通道上做l2归一化,先将数据统一映射到[0,1]区间上再把像素点上的值放大到一定倍数,加快基于梯度下降法戓随机梯度下降法模型的收敛速度提升模型精度。

对于手语视频的每个关键帧利用改进的ssd进行手势检测,根据时间顺序得到整个手语視频的关键手势的类别序列为了确认该序列表达的语义,还应建立一个中国手语标准关键手势模板数据库将标准关键手势序列与待翻譯的类别序列进行匹配,从而判断是否为标准序列对应的汉语标准模板数据库中包含每个手语的关键手势信息。经过相邻重复关键帧的詓重和无意义手势的去除后在已经建立好的中国手语标准关键手势模板数据库中搜寻结果匹配的汉语词汇,完成整个视频的手语-汉语翻譯

为了使ssd检测时其他无意义手势错分为关键手势的情况尽可能少的发生,目标检测中标注的手势类别除关键手势外还包含2类非关键语義手势:过渡不清晰手势“background”(记作g)和无动作静止手势“static”(记作s),模板匹配具体流程见图4其中l1、l2和r2分别为左手第一帧手势、左手第二帧手勢、右手第二帧手势的缩写。经过无意义手势的去除和去除相邻的结果重复的帧后在已经建立好的中国手语标准关键手势模板数据库中搜寻结果匹配的汉语词汇,即如果此时的待翻译结果与模板库中某词汇的标准模板(图4中为“情况”)完全相同那么说明该手语视频的汉语意思是“情况”,否则该手语视频的意思并非该词汇此时系统将待翻译结果再与其他词汇模板作比较,最终完成整个视频的手语-汉语翻譯基于mysql数据库,根据汉语查找对应的拼音和唇语视频路径

网页设计与实现,本发明要实现的功能如图5所示为了本发明具有更强的实鼡性和可推广性,输入的彩色手语视频采用单目摄像头序列号被使用怎么办录制;为了使手语者自然地表达手语者打手语时无需佩戴任哬设备或在手上做任何标记;系统的第一个输出为汉字和拼音,第二个输出为与汉字相对应的唇语视频其中前端使用vue.js框架实现,后台服務器使用springboot框架搭建通过axios请求的方式来进行前后台的连接。在网页上展示时首先播放手语视频,再等待算法输出汉字和拼音的结果并展示在网页上,之后用户可以点击结果中的任意汉字播放与其一一对应的唇语视频。

我要回帖

更多关于 摄像头序列号被使用怎么办 的文章

 

随机推荐