デジタル化において
プロジェクト開始当初、私たちは新聞を「キーワード検索可能」にする計画を立てていました。紙媒体を電子媒体に変える際に使われる一般的な技術は、光学文字認識(OCR)であり、それは、電子テキストでの検索を可能にします。
多くの新聞、特にニューヨークタイムズや、ザ・タイムズ・オブ ロンドン、ローカル紙ではザ・シアトルタイムズなどは商業ベンダーによってデジタル化されてきました。ORCを利用することで、ニュース記事がスキャンされ、専門ソフトウェアを利用することで文字や数字が認識されます。
英語と日本語の両方でORCソフトウェアを初めて試行した結果、新聞紙の低品質による鮮明さの欠陥だけでなく、日本文の複雑さにより正確性が極めて低いことが明らかになりました。
一般的にOCRは次のような理由から、日本語テキストにおいて機能するのが困難であるとされています。 1) 日本語は平仮名やカタカナなどの表音文字と同様に、ゆうに3000を超える漢字の表意文字、この2つの文字の組み合わせで書かれていること。2) 日本語は文字の認識をしやすくするスペースのような区切りで分けられていないこと。3) 日本語の多くの文字が、さらに文字認識を複雑にする、似たような形を持っていること。
もう一つ、特にこのプロジェクトにおいて難しいところは、より複雑でOCRソフトウェアの使用をさらに困難にする、旧漢字で新聞が発行されていることです。このプロジェクトの翻訳家者は、時間を要する旧漢字の理解と、昔の文法構文の判読に奮闘しました。
私たちはOPCの代わりに、最も広い読者層に、新聞の内容へのアクセス可能にするその他の効果な方法の研究、試行を重ねています。
現在のウェブサイトはこれらの2つの新聞のデジタル化を特徴づけています。キーワード検索が不可能な間、記事は日本語の読者によってアクセス、閲覧が可能です。
英語の読者を増やすために、私たちは手作業で早期の北米時事、ノースアメリカンタイムズの一面記事の英語訳を掲載しました(参照“翻訳ページ”)。これらの翻訳は一面の構成を真似た図表を用いて示され、最も重要な記事の概要が掲載されています。
References:
Das, S., & Banerjee, S. (2014, January 1). Survey of Pattern Recognition Approaches in Japanese Character Recognition. Retrieved from http://www.ijcsit.com/docs/Volume5/vol5issue01/ijcsit2014050120.pdf
Hokubei Hochi Foundation
日本語