1 原文作者
Mengyun Tang (Xidian University)
Haichang Gao (Xidian University)
Yang Zhang (Xidian University)
Yi Liu (Xidian University)
Ping Zhang (Xidian University)
Ping Wang (Xidian University)
2 论文来源
IEEE Transactions on Information Forensics and Security (Volume:13,Issue: 2018)
3 论文地址
https://ieeexplore.ieee.org/abstract/document/8327894/authors#authors
4 论文简介
文本Captcha是最流行的Captcha方案,因为它易于构建和用户友好。黑客和程序员降低了这些机制的预期安全性,使网站容易受到攻击。文本验证码仍然被广泛使用,因为人们认为攻击速度很慢,通常每张图片2到5秒,这并不被视为一个严重的威胁。本文介绍了对文本验证码的简单、通用和快速攻击,它有效地挑战了这种假设。通过深度学习技术,我们的攻击显示了很高的成功率打破基于罗马字符的文本验证码部署的前50名最受欢迎的国际网站和三个使用较大字符集的中文验证码。这些目标方案几乎涵盖了所有现有的抗性机制,说明我们的攻击技术也适用于其他现有的验证码。基于语义信息理解、像素级分割和深度学习技术,提出了一种基于图像的风格区域验证码(SACaptcha)。
5 解决问题
本文主要问题是验证文本验证码不再安全和提出新的较为安全的验证码。
在验证文本验证码安全性问题的时候需要考虑目前安全验证码采用的一些反识别机制,字符隔离,旋转和扭曲,重叠,空心方案,可变的验证码串长度,噪声弧,复杂的背景,双层结构等。同时对常见字符集(英文字母、数字)文本验证码和大字符集验证码分别进行探究。
在提出新的图片验证码方案以后需要验证提出方案的可用性及安全性问题。
6 本文贡献
本文主要贡献及创新点在于:
- 使用深度学习的方式来进行文本验证码的识别;
- 提出了一种新型的图片验证码方案,并论证其可用性、安全性;
7 论文方法
文本验证码识别。提出的方法主要分为3个步骤:
- 预处理;
- 分割;
- 识别;
具体而言,在预处理阶段针对不同的反识别策略有不同的解决方案,如两层结构首先进行分割变成两个单层的验证码,然后进行分割操作。在分割中也有细节,将变长字符序列转变为字符长度分类问题,训练CNN 模型来进行验证码长度的预测,然后进行分割。最后的识别阶段采用LeNet-5来进行模型的训练
大字符集文本验证码采用的流程也是预处理-分割-识别。
在图像验证码设计中,使用深度学习来进行验证码的生成过程。提出的方法分为四个步骤:
1.生成风格迁移图像
2.合成背景
3.生成验证码
4.生成一个描述
预先训练了几个风格迁移网络,每个都有一个样式。使用这些网络生成风格迁移图像;然后将其中一幅样式转换后的图像与原始图像按α的比例进行合成得到合成背景;从其他风格转换的图像中随机裁剪不同形状的区域,并将它们重新定位到合成背景中以生成验证码;最后生成一个简短的描述来指导用户如何通过测试。

为了验证设计的图像验证码的可用性,设计了三个版本的实现来进行对比,然后邀请了100个人参与实验。版本信息如下:
版本1:两个简单前景形状(圆形和矩形)和 11种风格样式
版本2: 25前景形状,但只有两种风格样式(一个为背景和另一个为前景)
版本3: 25个前景形状和11个风格样式
8 实验结果
实验准备:
环境:未提供硬件环境与软件环境信息。
数据集:
- 文本验证码:3400张Captcha图像,2000张-训练集,400张-验证集,1000张-测试集。
- 图像验证码:每个版本生成6000个SACaptchas。4000-训练集,1000-验证集,1000-测试集。
文本验证码实验结果:

图像验证码实验结果:
随机猜测攻击:成功率小于0.004884%
边缘检测:无法找到每个前景区域的模糊边缘如图a
目标检测:目标检测技术只返回每个区域的粗略位置(一个矩形);它们不能返回像素级随机生成的不规则形状是什么
像素级分割技术:FCN正确检测出了两个圆形和一个矩形的前景区域,但它错误地预测了心形前景区域是圆形的。它还错误地将背景区域预测为前景区域,并遗漏了一个五角形的前景区域

9 本文不足
- 在验证码识别过程中采用的分割-识别的套路,目前已经有不分割的方法直接训练模型;
- 大字符集验证码安全性论证时依据并不充分,可以看出如果是对字符形状比对很容易能够破解,但是对于百度注册时候出现的文字验证码,对于没有对比物,就需要对字符集有一定的知识储备,同样证明了该类型的验证码安全性足够高。
10 代码和数据集地址
未提供