Googleが日本語を自動改行する「BudouX」をオープンソース「GitHub」で公開

文節単位の分かち書きで分かりやすく改行、軽量サイズのライブラリを機械学習で開発

Googleは、日本語を文節で区切って改行して読みやすくするオープンソースの分かち書き器「BudouX」を開発者向け日本語公式ブログ「Google Developers」で9月24日に紹介した。開発者向け共有サービス「GitHub(ギットハブ)」で公開し、日本語と中国語(簡体字、繁体字)をサポートしている。

文節単位の分かち書きで自動改行を実現

BudouXは、Webなどさまざまなプラットフォームで自動改行するライブラリで、読みやすい折り返しを実現する。2016年公開のBudouの後継で、サードパーティのAPIや分かち書きライブラリに依存せずに動作する。分かち書きのための機械学習モデルを含めて20KB程度と軽量で、Webブラウザに配信するJavaScriptファイルに同梱も可能。

単語と単語の間をスペースで空ける英語などと異なり、日本語や中国語などアジア圏の一部の言語は分かち書きをしない。このためWebサイトやモバイルアプリで日本語や中国語を表示すると、スクリーンサイズによって好ましくない折り返しが起きることがある。この問題を自動で解決するため、BudouXは機械学習モデルを利用して開発された。

日本語の分かち書きモデルは、文節間の改行が読みやすさに寄与するとの考えから、単語単位ではなく文節単位の分かち書きを提供。「JavaScript」「Python」「Java」をサポートしており、プレーンテキストだけではなくHTMLコードにも適用可能。ブログではBudouXを活用している事例としてアドビのサイト「Adobe.com」を紹介している。

この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

1組織1ドメイン名の原則
1つの組織に対して1つのドメイン名のみを認めるという原則。「go.jp」(政府組 ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]