▶知らず知らずに古書解読プロジェクトに参加してた!?

ウエブサイトで商品を買ったり、メンバー登録する際に、枠内に表示された英語の単語や数字を読んで、その通りにキーボードなどで入力し直さなければならないことがある。表示されるのは歪んだ文字で、分かりづらいものもあるが、普通はなんとか読むことができる。

この仕組みの正式名称はreCAPTCHA。人間には読めてもコンピューターには読解不可能な文字を表示することで、人間であることを証明するための仕組みだ。この仕組みのおかでで、コンピューターの自動入力装置を使って購入、キャンセルを何百回も繰り返してシステムを麻痺させたり、架空のメンバー登録を無数に繰り返して営業を妨害したりしようとする不届きな輩を排除することができる。

ところでこの仕組みを使うたびに、古書をデジタルデータ化する非営利プロジェクトにあなた自身が協力していることをご存知だろうか。

reCAPTCHAの開発者の1人カーネギーメロン大学のルイス・フォン・アーン氏によると、1日に2億回もこの歪んだ文字の読解が行われているという。「1回の読解、テキスト入力に10秒かかるとすると、世界全体で1日に50万時間が無駄になっているわけです」と同氏は言う。「この歪んだ文字の読解は現在のコンピューターの処理能力では未だに不可能な作業で、その高度な処理能力が一日に50万時間も無駄に使われているんです」。

その高度な処理能力を何か有益な作業に向けることはできないか。そう考えた同氏が思いついたのが、古書の解読。現在 Googleなどが中心になって、米国議会図書館などの書籍のデジタル化のプロジェクトが進んでいるが、印刷がかすんでいたりページが黄色に変色したりしていると、コンピューターでは読み取れない。50年以上前に印刷された本だと、文字数で約3割ぐらいがコンピューターでの認識が不可能なのだという。

そこでコンピューターが読めない文字や単語の写真だけを集めて、人間であることを認証する画面で表示し、ユーザーに読んでもらっている。あなたが入力した文字が、書籍のデジタル化プロジェクトにそのまま採用されているわけだ。

ただ入力されたテキストをそのまま鵜呑みにはできない。なのでコンピューターが読解できた単語とできなかった単語をそれぞれ1つずつ並べて表示する仕組みにしている。コンピューターが読解できた単語をユーザーが正しく入力してくれば、入力したのが自動入力装置ではなく人間であることが分かる。なのでもう1つの単語の入力も信頼できる、という考え方だ。だからreCAPTCHAに表示される単語は、2個ワンセットなのだ。

また同じ単語の写真を複数の「人間」ユーザーにテキスト化してもらって、信頼性の高いテキストを採用するようにもなっている。


▶️人工知能研究に新領域

こうしたコンピューターと人間がそれぞれ持つ能力の特性を持ち寄ることで、これまで困難だった作業を効率よく解決する手法を研究する学問の新領域が生まれている。「ヒューマンコンピュテーション」と呼ばれる領域で、reCAPTCHAを開発したアーン氏がこの分野の第一人者だ。

アーン氏と同じカーネギーメロン大学のEdith Law氏がネット上に関連資料をアップしている。その資料によると、ヒューマンコンピュテーションの定義は「人間を使ったコンピューテーション」。その概念を簡単に言うと次のようなものになるという。「世の中には、解くのが困難な問題が存在する。最も洗練されたAIを使ったとしても解けない問題が存在する。そういう問題は人間に解かせよう。人間をコンピューターとして扱おう」。

同じような概念にクラウドソーシングある。クラウドソーシングは、仕事やタスクを細分化してネットユーザーに手分けするアウトソーシング手法。これに対しヒューマンコンピュテーションは、あくまでもコンピューター向けのアルゴリズムを設計し、コンピューターには困難な部分を人間にアウトソーシングしようという概念だ。

なので基本はコンピューターサイエンス。機械学習や人工知能の基本的な理解は不可欠だ。そこに心理学や経済学、統計学などといった社会科学の手法を取り入れたものになっている。


▶人間を補佐するコンピューターから、コンピューターを補佐する人間へ

こうした動きを見て、感じたことが2つある。

1つは立場が逆転し始めたということ。これまでコンピューターは、人間の仕事を補佐する道具だった。しかしヒューマンコンピュテーションは、人間がコンピューターを補佐するという考え方である。

もしろんヒューマンコンピュテーションを設計するのは人間なので、コンピューターが人間の道具であることには違いはない。しかしまずコンピューターありきで世の中の問題の解決を考える時代になってきている、という点がおもしろいと思った。

もう1つは、人工知能、つまりコンピューターには、まだまだ不得意な問題が存在する。ベースはコンピューターを使いながらも、人手をどう加えていくのか、ということを考慮して製品やサービスを開発しないといけない時代になってきた。そう感じた。





【お知らせ】
この記事はBLOGOSメルマガ「湯川鶴章のITの次に見える未来」の無料公開分の記事です。

2歩先を読む少人数制勉強会TheWave湯川塾28期は「人工知能xバイオ」がテーマ。事前募集が始まっています。