BERTを解説する①

BERTとは

BERTは「Bidirectional Encoder Representation from Transfomer」の略で、自然言語処理の分野において最も有名なモデルの一つです。

事前学習に「深い双方向型の学習」を取り入れることで、より堅牢な言語表現を獲得。それによって、汎用的なアーキテクチャと従来より少ないリソースながら多くのタスクでSOTAを塗り替えるということを行い、自然言語処理分野にブレイクスルーをもたらしたモデルと言われています。

今回は、そのBERTの論文の核心部分であるMLM(Masked Language Modeling)とNSP(Next Sentence Prediction)という2つの事前学習について解説していきたいと思います。

Masked Language Modelingとは

Masked Language Modeling(MLM)は文章中の文字を[MASK]に置き換えて、その[MASK]に入る文字を予測する、穴埋め問題を解くようなタスクになります。

In the corner of a first-class [MASK] carriage, Mr.Justice Wargrave, lately retired from the bench, [MASK] at cigar and ran an interested eye through the [MASK] news in The Times.

And Then There Were None (Agatha Christie)より引用

上の例文だと、cigar(葉巻)という単語が文章中にあるので、最初の[MASK]は「smoking carriage」(喫煙車両)になり、2つ目の[MASK]は「puffed at cigar」(葉巻を吸う)、3つ目は「lately retired from the bench」(最近、裁判官を引退した)とあるので、「political news」(政治ニュース)を読んでいる可能性が高いだろうと推測できる。

このように、周りの単語から[MASK]された単語を予測することで、[MASK]された単語と周りの単語の関係性というのを大量の文章を使って学習するというのがMasked Language Modelingになります。今回、[MASK]をする単語は文章内から比較的推測しやすい単語を選びましたが、実際の学習では[MASK]される単語はランダムなので、非常に難しいタスクになっています。しかし、その難しいタスクを使用して事前学習を行うことで、より一般的な言語表現を学習でき、下流タスクの精度上昇に繋がるのです。

Next Sentence Predictionとは

次にNext Sentence Prediction(NSP)について紹介します。

Next Setence Predictionは2つの文章が与えられて、その2つの文章が繋がっているか否かを推測するタスクになります。

「私は本格ミステリ小説が大好きです。」 「特に、ミステリの女王と呼ばれたアガサ・クリスティは私がもっとも好きな推理小説家の一人です。」

この2文はどちらも推理小説について語っているので、繋がっている文章と予測できます。

「私は本格ミステリ小説が大好きです。」 「特に、本能寺の変は日本史最大のミステリと言われていて、自分が最も興味のある歴史的な事件の一つです。」

一方、この2文は同じミステリという単語を用いていても、前者は「推理小説」について語っているのに対し、後者は「歴史の謎」について語っています。このようなところから、繋がっている文章ではないと予測できます。

このような予測を行うのがNSPのイメージになります。

自然言語処理の分野ではQ&Aなど文章の繋がりや関連性といったことが重要になってくるタスクもあります。しかし、MLMでは文章の繋がりを直接学習することができないので、NSPのように文章の関連性というのを学習する事前タスクが必要になってくるのです。

実際、文と質問をペアとして入力し、その文が質問に対する答えを含むかを判定するタスク(QNLI)において、NSPを学習に含めた場合と含めなかった場合において精度に大きな差が出ることが論文内で示されています。

まとめ

今回は、「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」を読んだので、その中からMasked Language ModelingNext Sentence Predictionに関して解説しました。自然言語処理分野における事前学習は非常に重要なテーマであり、その変遷を知ることでよりMLMやNSPに関しての理解が深まると思うので、事前学習のまとめもいつかしてみたいと考えています。

また、長くなりすぎないようにというところで内容はかなり絞っているのでもっと詳しく知りたいという方は、論文の方に目を通していただければと思います。

参考資料

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding