ハーバード大学ロースクール図書館が、
総ページ数は3億8600万ページに及ぶ
98万3000冊の書籍からテキストデータを抽出した
データセット「Institutional Books」を公開。
このInstitutional Booksのデータは、
リンク先で公開されており、非営利目的にのみ
自由に利用できます。
また、Institutional Booksの構築に使われた
パイプラインのソースコードは以下のGitHubリポジトリで
公開されています。
データセット「Institutional Books」の構成内容や
リンク先やソースコードなどはリンク記事でご確認ください。

著作権フリーな98万冊の書籍からテキストを抽出したデータセット「Institutional Books」をハーバード大学が公開、Googleブックスの書籍インデックス化プロジェクトのデータを活用 – GIGAZINE
ハーバード大学ロースクール図書館が98万3000冊の書籍からテキストデータを抽出したデータセット「Institutional Books」を公開しました。データセットの作成にはGoogleブックスの成果が活用されています。
[PR]