コーパスは言語分析のための言語資料を集成したもので、
言語学研究、辞書編集、AI(自然言語処理)の
学習データ、英語学習などに活用されています。
コーパス|Wikipedia
https://ja.wikipedia.org/wiki/コーパス
大学共同利用機関法人 情報・システム研究機構
国立情報学研究所大規模言語モデル研究開発センターは、
オープンソースAIの定義(OSAID)に配慮し、
第三者も入手可能な良質な学習コーパスの
収集・選別・構築を行い、インターネット上の公開データや
政府・国会の文書、合成データなどからなる
約12兆トークンの学習コーパスを整備・使用して
学習した新たな国産大規模言語モデル(LLM)として
「LLM-jp-4 8Bモデル」と「LLM-jp-4 32B-A3Bモデル」を
オープンソースライセンスで公開。
詳しくはリンク記事でご確認ください。

約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開~一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成~ – 国立情報学研究所 / National Institute of Informatics
国立情報学研究所は、情報学という新しい研究分野での「未来価値創成」を目指すわが国唯一の学術総合研究所として、ネットワーク、ソフトウェア、コンテンツなどの情報関連分野の新しい理論・方法論から応用展開までの研究開発を総合的に推進しています。
[PR]
