【検証】東京電力は「電カ」とかの隠ぺい工作をGoogle検索でしているのか?

Sponsored Link

今回の「東京電カ」(カタカナの「カ」)の件ですが、もっと詳細に調べていました。その結果を報告します。

今回の「東京電カ」(カタカナの「カ」)の件で、東電が隠ぺいしているかはともかくとして、GoogleのPDF検索機能が結構ダメダメだということもわかりました。

むむっ! Googleは独自に文字を解釈しまくっていることが判明


今回の東電の件で検索結果が拡散されていたわけですが、そこに出ている検索結果は「PDF」ばかりです。

6355000b

では、まず以下のPDFですが、これは元から「テキスト化」(つまり発行者がテキスト化した)ものだと思われます。(実際にPDF自体がテキスト化されています)

2014-06-09_134538
http://www.genanshin.jp/news/data/press_20121115.pdf

上記のPDFに含まれているテキストでは「原子力」は漢字の「力」になっています。

しかし、この検索結果にでるGoogleの「スニペット」ですが、以下のようになっています。

2014-06-09_134750

2013/12/28 – 原子安全推進協会は、技術評価において事業者の意向に影響されない独立性の仕組み࡮体制を構築し、事業者に対し … 取り組み. (䋪)WANO:世界原子力. 発電事業者協会. 仕組み. ミッション : 日本の原子カ産業界における、世界最高水準 …

この赤字の「」ですが、カタカナの「」です。一行目のタイトルの「カ」もカタカナの「カ」です。

つまり、PDFは改ざんされていない(間違っていない)はずでも、透明テキスト化されてPDF自体にテキスト情報を持っていてもGoogleはPDFを再文字化しており、さらに漢字の「力」をカタカナの「カ」に誤認識していることがわかります。

テキスト化されていないPDFは独自で文字化するGoogle


先ほどの「検証!東京電力はOCRで誤認識されるのか実際にやってみた(追記あり)」でも追記しましたが、以下のテキスト化されていないPDFも検索結果にはテキストが表示されています。

2014-06-09_135435
http://www.pref.gifu.lg.jp/bosai-bohan/bosai/nuclear/rikuden/houkoku/rikuden-ijou.data/rikuden0707hf.pdf

「北陸電力」のPDFですが、これはPDF自体に文字情報は組み込まれていません。

つまり、ワードを印刷したものか、PDFにしたものを一度印刷して紙にしてから再PDF化したものだと分かります。

しかし、Gooogleの検索結果のスニペットには以下のように書かれています。

2014-06-09_114006

これはカタカナの「カ」になっています。

同じようなものは他にもあります。

検索すると以下のPDFが表示されます。

2014-06-09_140135

http://www.pref.niigata.lg.jp/HTML_Simple/houkoku_siryou_no.1.pdf

これもPDF自体にはテキスト化された痕跡はありませんが、Googleの検索結果のスニペットは以下のようなテキストで表示されます。

ネ白崎刈羽原子力発電所の ~ー 最近の状況についてー
www.pref.niigata.lg.jp/HTML_Simple/houkoku_siryou_no.1.pdf
木白崎刈羽原子力発電所. 菅東京電 ・. ・ TEp=ロ 本資料の著作権は東京電力株式会社に帰属します。 東京電力株式会社 … ー.被害を … 7号機 放射性物質の漏えい及び対応 … 本賛料の著作欄ま束京電力株式会ネ士に帰属します】 東京電力株式会社 ー0.

これを見る限りでは、テキスト化されていないPDFはGoogleが独自にテキスト化してテキストを抽出させて検索に使っていることがわかります。

そして、そのGoogleの文字認識が間違っていることも明白です。

しかも、上記のように「ネ白崎」か「木白崎」とか、そのテキスト化はどーしようもないものであることが分かります。

子イ共 学校で検索すると・・・


子イ共 学校」で検索してみます。

これも同様の結果になりました。

2014-06-09_140626

元々のPDFは正しい「子供」もしくは画像の「子供」であるのですが、Googleの文字認識を通したばっかりに残念な結果(子イ共)になっています。

結論


当初はOCRの間違いが話題になっていたことから、当ブログでは「OCRの線で調べていた」のですが、よくよく調べてみると、Googleの検索結果に問題があるんじゃないの? という疑問がわいてきました。

これまでの検証結果からは、GoogleはPDFがテキスト化(透明テキスト化)されていてもいなくても

テキスト抽出を独自でやっている(検索結果のスニペッドはそうなっている)ことがわかり、さらにGoogleの文字認識が間違えまくっていることが分かります。

PDFの透明テキスト化されたPDFは内部情報として検索用のテキストを持っているのですが、Googleではそれを使っていない場合もあるということになります。

このような結果から、今回の「東京電力の隠ぺい疑惑」は疑惑自体が怪しいもの(東電は改ざんしていない)であると「お墨付き!」では結論に至りました。

しかし、本当にこのような事例ばかりなのかは、全部見たわけではないので分かりません。

少なくとも、Google検索結果だけで判断してはいけないということはわかりますが、本当に隠ぺいがないのかは定かではありません。

ただ、東京電力が疑われるようなことをしてきたということも要因なのではないでしょうか。(安全安全だと言っていたり、「吉田調書」を非公開にしているのは自民党ですが)

「ストロンチウム」の件で「ト」が漢字の「卜」(ぼく)だったという話も先に出ていました。(現状ではPDF自体は修正されたようですが)

そういった点から「疑惑の目」は潰してはいけないのだと思うばかりです。

補足:「OCR」という表記について


「OCR」という表記について少し誤解がありそうなので補足いたします。
記事中では「OCR」と「Googleの文字認識機能」というのは別扱いで書いています。

これは「OCR」がスキャナなどの光学機器を用いたスキャニングを意味するのに対して、Googleの「画像PDFからの文字認識」はOCRとは呼べないことを明確に分けているからです。

よって、今回の件は「OCRの誤認識」というわけではなく、「Googleの文字認識機能の誤認識」という表記が正しいことになりますので、よろしくご理解ください。

ただ、「OCR」が必ず光学機器を用いるかどうかは今では明確な基準なく使われています。「Googleの文字認識機能の誤認識」を「OCR」と呼ぶこと自体は間違いとは言い切れませんが、本件では分けて考えた方が良いと判断しています。

Sponsored Link

最新記事はトップページで!

京都発・地方が盛り上がるグルメや観光に撮影ロケ地の話題を提供!


購読するならRSSをご利用ください!

RSSはこちらをご利用ください。


マスコミ各社様の記事使用規約についてはこちらをご覧ください。

当ブログでは掲示板やSNSなど他メディアでURLや記事を紹介することはございませんので、掲示板などで記事を紹介されていても一切無関係です。誤解なきようお願いいたします。
当ブログで転載しているTweetはTwitter社の規約(2013/10)に準じた形式(API利用)によって許可された範囲で行われています。また、Tweet内容の所有権はTwitter社の規約によりTweet元のアカウント所有者にあります。そのため、当ブログでその所有権を主張するものではありません。Tweet内容については責任は負いませんので予めご了承ください。