验证码中藏着什么秘密?

平时上网，经常会被要求识别验证码，可能是一串扭曲变形的字符，可能是一道数学题，也可能是在多张图片中找出特定的物品等等。据说，识别验证码长期在“互联网最烦人发明”榜单中名列前茅。

验证码发明的初衷是识别来网站捣乱的机器人，但随着机器人识别能力的不断提升，也反向推动验证码识别难度的不断提高，这也让人们对验证码变得越来越反感。但如今科学家大开脑洞，把验证码应用到一些我们意想不到的场景。

在2007年，学术界正在做一项大工程，就是把人类迄今为止的所有纸质典籍电子化，纯手工录入肯定不现实，最好的办法是用机器扫描加光学识别。不过有些年代久远的典籍扫描出来比较模糊，有一大堆机器辨认不出来的字符。这时候，验证码就派上用场了。验证码的发明者路易斯·安把字符验证码稍微改进了一下，新的验证码由两部分字符组成，前半部分和原来一样，是经过设计的扭曲字符，这部分字符系统是知道正确答案的；而后半部分，就取自典籍数字化过程中，那些机器无法准确识别的字符，系统也不知道正确答案。

当用户输入识别验证码的时候，其实只有前一半字符是“自证清白”用的，如果这部分字符填对了，那么系统就认为你是“真人”；你填写的后半部分字符，相当于你是在给系统免费干活，帮它辨认这到底是什么。如果对同一串字符，有三个“真人”给出了一样的答案，这个答案就会被当作正确答案，纳入典籍文字识别结果中去。

故事讲到这里还没完。2009年，谷歌收购了这项验证码技术，它想用来干吗呢？就在那一年，谷歌启动了自动驾驶项目。你知道，自动驾驶的一项关键技术，就是训练AI进行图像识别，比如识别街景图像中的门牌、路标、红绿灯、自行车、栏杆等等。这些图像最初的识别标注，需要人工来完成，工作量巨大。

说到这儿，你可能猜到谷歌在打什么主意了。收购这项验证码技术之后，谷歌就把前面说的，街景图像中的门牌、路标、红绿灯、自行车、栏杆等大量物体加入验证码系统，让用户去点击识别，帮助AI认识这些物体。几年下来，谷歌的AI已经被训练得相当出色，识别物体的功力和人类不相上下。

除此之外，国内的腾讯也在做同样的尝试，更多详细内容可以阅读：验证码中藏着什么秘密？

回到首页