検証!東京電力はOCRで誤認識されるのか実際にやってみた(追記あり)

Sponsored Link


「東京電力いや東京電カに教えたい!似ている文字やフォントで検索させない方法と、もっと確実に検索させない方法」に書きましたように、「東京電力」をOCRが誤認識するというのは、私は考えづらいと思いました。

そこで、それを実際にOCRさせて確認してみました。

なんでも検証しないと気が済まないのが「お墨付き!」です。

検証環境


Windows8
Adobe Acrobat v10.1.1
ペイント

OCRはAcrobatに実装されている機能なので、それを使いました。
AcrobatのOCR機能は画像で表示しつつも見えないテキストで検索できるようにすることが出来るので、Google検索もそれを使った仕組みだと思われます。ただ、最後に追記しましたが、テキスト化されていないPDFでもGoogleは検索できるようで、その場合は誤認識の可能性もあります。

用意した画像


touden

画像は手書きとテキストフォントを入力したものを画像化しました。
さらに、「PNG」と「JPG」の2つ用意しました。

画像を読み込む


2014-06-09_100652

Acrobatで画像を読み込むと勝手にPDFになります。
この状態では「画像」です。

この状態で検索するとテキストにしてみるか確認がはいります。

2014-06-09_101018

「テキスト認識」が起動します。

2014-06-09_101108

おおおお!!

2014-06-09_101225

なんと、手書き以外は全部が「透明テキスト化」されていました。

テキスト抽出結果は以下のとおりです。

上から
東京電力
東京電力
東京電力
鯨霞力

この上の「力」ですが、全部漢字の「力」になりました。
カタカナの「カ」ではありません。

完璧に認識されています。

上記は「PNG」画像の状況です。

これを「JPG」画像でやってみたのが以下です。

2014-06-09_101810

こちらも手書きはダメでしたが、以下が抽出結果です。

上から
東京電力
東京電力
東京電力
鯨篭力

全部漢字の「力」になっています。

PDFはダウンロードできるようにしておきました。

touden-pdf
touden-jpg

では、改ざんしてみましょう


2014-06-09_102638

では、「touden-jpg.pdf」を改ざんしてみましょう。
「ツール」から「コンテンツ → 文書テキストを編集」を選択します。

2014-06-09_102727

範囲選択します。

すべて漢字の「力」をカタカナの「カ」に改ざんしました!

2014-06-09_102903

検索で「東京電力」にヒットしなくなりました!

なお、カタカナの「カ」にはヒットしました(笑)

2014-06-09_103020

改ざんした「touden-jpg2

OCRの精度は高いし、改ざんも可能


というわけでOCRの精度は高いし、改ざんも可能でした。
ただし、テキスト化されていないPDFもあります。この場合、Google独自の文字認識機能で検索することになりますが、その場合は誤認識もあります。

たとえば、以下のURLのPDFはテキスト情報はありませんがGoogleでは「電カ」(カタカナの「カ」)で検索結果が出ます。

2014-06-09_114006

http://www.pref.gifu.lg.jp/bosai-bohan/bosai/nuclear/rikuden/houkoku/rikuden-ijou.data/rikuden0707hf.pdf

OCRの精度の問題ではないと思います。

しかし、Googleの方の仕組みがショボイ可能性もあります。(上記の事例ではGoogle独自のPDF検索機能がショボイのは確定だと思います)

一番早い確認方法は、Googleの検索結果ではなく、実際のPDFを入手して「テキスト化」された文字列を確認することですね。

【検証】東京電力は「電カ」とかの隠ぺい工作をGoogle検索でしているのか?につづきます。

その他の「東電疑惑」記事


【またまた検証】東京電力はYahoo!検索でも「東京電カ」とか「卜」や「口」の隠ぺい工作をしているのか?

【検証】東京電力は「電カ」とかの隠ぺい工作をGoogle検索でしているのか?

「柏崎」をOCRするとどうなるのかやってみました

検証!東京電力はOCRで誤認識されるのか実際にやってみた(追記あり)

東京電力いや東京電カに教えたい!似ている文字やフォントで検索させない方法と、もっと確実に検索させない方法

Sponsored Link

最新記事はトップページで!

京都発・地方が盛り上がるグルメや観光に撮影ロケ地の話題を提供!


購読するならRSSをご利用ください!

RSSはこちらをご利用ください。


マスコミ各社様の記事使用規約についてはこちらをご覧ください。

当ブログでは掲示板やSNSなど他メディアでURLや記事を紹介することはございませんので、掲示板などで記事を紹介されていても一切無関係です。誤解なきようお願いいたします。
当ブログで転載しているTweetはTwitter社の規約(2013/10)に準じた形式(API利用)によって許可された範囲で行われています。また、Tweet内容の所有権はTwitter社の規約によりTweet元のアカウント所有者にあります。そのため、当ブログでその所有権を主張するものではありません。Tweet内容については責任は負いませんので予めご了承ください。