紙媒体で受け取った資料を簡単に文字データにできる時代がきました。

国立国会図書館が公開した「NDLOCR-Lite」
「NDLOCR-Lite」は、国立国会図書館の実験サイト「NDLラボ」で公開されたOCRソフトです。
OCRというのは、写真やPDFなどの画像から文字を読み取り、テキストに変換する技術のことです。例えば、本のページをスキャンした画像や、スマホで撮影した資料などから、文字情報を取り出せるようになります。
今回公開されたNDLOCR-Liteは、これまで公開されていた「NDLOCR」の軽量版として開発されたもので、一般的なパソコンでも動くように設計されているのが大きな特徴のようです。
GPUなしでも動くOCR
ふたばがすごいと思ったのは、このソフトが特別なGPUを必要としない点です。
これまでのAI系OCRは、高性能なGPUが必要なことも多く、個人で気軽に使うのは少しハードルが高い印象がありました。しかしNDLOCR-Liteは、ノートパソコンなどの一般的な環境でも動作することを目指して作られているそうです。日本製ということがあり、縦書きに対応してるのがありがたいです。国語の先生もバッチリです。さらに、日本語だけでなく、英語や手書き文字にも実験的に対応しているとのこと。
授業資料や研究資料、古い本のデータ化など、いろいろな場面で役立つかもしれません。
本や資料のデジタル化が身近になる?
NDLOCR-Liteは、学校や研究の現場でも使えそうだと感じました。
例えば
- 本の資料をテキスト化して検索しやすくする
- 授業プリントをデータ化して保存する
- 古い資料をデジタルアーカイブとして残す
そんな使い方ができるかもしれません。
NotebookLMとのコンボ
文字データとして取り込んだデータをNotebookLMに取り込めば、自分だけの生成AIが簡単に作れそうです。最強コンボですね。
ローカルでも使える
さらに、インターネットにアップロードしなくてもローカル環境で使えるという点も、資料の扱いに安心感があるのではないでしょうか。
まとめ
今回公開されたNDLOCR-Liteは、
- 一般的なパソコンで動作する軽量OCR
- 日本語だけでなく英語や手書きにも対応(実験的)
- 図書や雑誌の画像から文字データを作成できる
といった特徴を持つツールです。
AIやデジタル化の技術は、少しずつ身近なものになってきています。こうしたツールが増えていくことで、本や資料の活用方法も広がっていきそうです。
ふたばも時間があれば、実際に試してみたいなと思いました。もしかすると、授業や研究のちょっとした作業が、ぐっと楽になるかもしれません。


