웹 사이트 로그인을 시도할 때 내가 로봇인지 사람인지를 구별하는 아래와 같은 사진을 많이 볼 수 있다.
애매한 글씨들과 그림들로 문제를 틀려서 내가 로봇이 되는 경우도 있어 난감할 때가 매우 많다
위와 같이 사용자가 사람인지 로봇(컴퓨터 프로그램)인지를 구별하기 위해 사용되는 방법을 CAPTCHA 라고 한다.
CAPTCHA?
Completely (=완전히)
Automated (=자동화된)
Public (=공공의)
Turing test to tell (=튜링 테스트와)
Computers and (=컴퓨터와)
Humans (=인간을)
Apart (=구분하는)
= 컴퓨터와 인간을 구분하는 완전히 자동화된 공공의 튜링 테스트
CAPTCHA의 목적은 사람과 로봇을 구별하는 것과 사람들이 많이 모르고 있는 한가지의 목적이 더 있다.
바로 오래 전에 쓰인 신문이나 손으로 작성된 문서와 같이 오래되어서 알아볼 수 없는 것들을 해독하기 위해서도 쓰인다.
먼저 CAPTCHA는 사람과 로봇을 구별하기 위해서 위 사진과 같이 CAPTCHA에서 만든 구부러지고 변형된 문제의 사진 하나와 오래되서 알아볼 수 없는 문서의 사진 하나를 보여준다.
이때 CAPTCHA에서 만든 답이 있는 문제를 맞추면 문제를 푼 사람이 로봇이 아닌 사람이라는 것을 알고 오래되어서 알아볼 수 없는 문서의 답도 사람이 해독한 것이라는걸 알고 답을 수집해간다.
이러한 방식을 reCAPTCHA 라고 부른다.
이런식으로 1851년 부터 지금까지의 뉴욕타임즈의 서적을 완전히 디지털화 하는 등의 성과를 보이고 있다고 한다.
근데 이제 더이상 디지털화할 것들이 없어졌다고 생각한 구글은 아래와 같은 방법을 통해 또다른 데이터를 수집하고 있다.
위에 나오는 횡단보도나 도로 표지판 등의 사진은 구글 로드뷰에서 찍힌 사진으로써 표지판을 구분할때, 횡단보도를 구분할 때 등으로 사용하게 된다.
또한 사람들이 판단해준 이 데이터들은 머신 러닝을 할 때 인공지능이 학습할 수 있도록 도와주고 자율주행 자동차가 도로나 표지판, 횡단보도 등을 구분할 수 있도록 하는 학습에 큰 도움을 준다.