【12月15日 東方新報】中国・江蘇省(Jiangsu)の大学研究チームはこのほど、国内初の大言語モデルを発表した。これは、ディープラーニング(深層学習)技術と大量のビッグデータセットを利用した人工知能(AI)アルゴリズムの一種で、中国の古書研究をサポートするものだ。

 古書用の大言語モデルは、古文をインテリジェントプロセスで処理し、中国の古書の研究と保存における革新的な発展を促進し、中国伝統文化の継承の効率と質を高め、大言語モデルと古書研究とを緊密に連携させるために設計された。

 大言語モデル「荀子(Xunzi)」は、儒教の古典「荀子」にちなんで命名されたもので、清朝時代に編さんされた約10億字に及ぶ書籍集「四庫全書(Complete Library in Four Sections)」を含む中国古代の書籍や文書の大部分を含み、20億を超える漢字と単語の大規模なコーパス(データベース)を持っている。

 研究者はこれを用いて古文を迅速に要約し、古書の題材を知ることができる。また、古文書から文字、出来事、場所などの重要な情報を抽出し、効率よく情報を整理することが可能になる。

 そのほか、このモデルはユーザーが与えた指示に従って文法と韻律に準拠した古代の詩を自動的に生成し、詩の愛好家にインスピレーションを与えることもできる。また、古代の文章を現代中国語に正確に翻訳することもでき、研究者が古代の文章の本来の意味や含蓄を理解するのに役立つ。

 江蘇省南京市(Nanjing)にある南京農業大学(Nanjing Agricultural University)情報管理学院の王東波(Wang Dongbo)教授が率いる研究チームは、10年前から古書や古文書のデジタル化に取り組んできた。

 同大学の強力なコンピューティング・パワーに支えられ、「中国書店」が提供するアプリケーション・シナリオに基づき、チームはついに中国初のAIによるオープンソースの古文書用の大言語モデルを完成させた。

 大言語モデルはオープンソースソフトウェアとして、ソフトウェア開発プラットフォーム「ギットハブ(GitHub)」や「モデルスコープ(Modelscope)」などのウェブサイトで公開されており、ユーザーは無料でダウンロードして使用することができるという。(c)東方新報/AFPBB News