先日聞いていた「やいやいラジオ」で、ricchaが「生成AIの文章にいりがちな「―――」と「正直」が、嫌いすぎる」と話していました。
正直 ――― これはめっちゃわかる (※ギャグです)。
後から調べて知ったのですが、英語圏ではこの記号 (em dash) がAI文章の「署名」とまで言われ、2025年から2026年にかけて、文章を見ただけで「これAIでしょ」と疑うためのミームになっていたらしい。
あまりに不評だったのか、OpenAIはChatGPTからこのダッシュを消す機能をわざわざ追加し、サム・アルトマンはそれを小さいけれど嬉しい勝利(small-but-happy win)とまで発言していた様子。
生成AIのなかにあるLLMは、インターネット上にある膨大な文章を読み込ませて、「ある文を途中まで与えたとき、次に来る単語(トークン)は何か」をひたすら当てさせることで作られる。この一見シンプルな訓練を、何兆ものトークンに対して繰り返してできたもの。
で、次の単語を当てるという目的に最適化していった結果として、私たちが「言葉を理解しているように見える」モデルが手に入った、というのが大まかな成り立ちです。
「次を予測するだけ」の素のモデルに、指示への従い方や安全な振る舞いを後から教え込んで (指示チューニングやRLHFと呼ばれる工程) 仕上がったのがChatGPTやClaudeみたいなAIチャットツール。
なので、LLMは「人っぽい文章を書かせるためにできた」と言っても過言ではないはず。
なのに、文章だけは書かせたくない
次の文章を当てるために生まれたモデルに対して、私がいまいちばんやらせたくない仕事は「文章を書かせること」です。「素手で書かせたくない」というのが正確か。
「むしろAIを使って文章を書け」という記事にある通り、私はAIを文章に積極的に活用すべきというスタンスですが、あくまで自分が主体で、AIを自分を拡張するためのツールとして握っている場合の話です。
プロンプトも、スキルも、メモリーも、その他のガードレールもない状態で、ぽんと「この件について書いておいて」と投げると、ゴミのような文章が出てくるという。LLMの本来の目的に対する能力の低さにはめちゃくちゃガッカリしています。
だから私は、書かせる前に環境を整えます。
文体のルールや、やってほしいこと・やってほしくないことをメモリーに刻み、反復する注意事項はスキルに残し、プロンプトなどでガードレールで囲ってから、自分で書き出した文章の一部を補足させたり、レビューさせる役割に閉じ込めて、仕事を任せる。手間に見えて、これをやらないと結局あとで全部書き直すことになります。
文章を予測するために生まれたモデルに、文章を書かせたくない
生成AIは、次の文章を予測するために生まれたもので、その能力の純度がいちばん高く出るのが、まさに「文章を書く」という仕事のはず。
だったら素手でまともな文章を書いてくれよ、というのがユーザーの期待なはずなのに、それを任せることができないという。
これは2020年代のテクノロジーで最大の皮肉になりそうな予感すらあります。
参考
- How does next-token prediction train a large language model? — Sebastian Raschka
- A Law of Next-Token Prediction in Large Language Models — arXiv:2408.13442
- 'ChatGPT Hyphen': Are Em Dashes a Giveaway of AI Writing? — Rolling Stone
- OpenAI ends ChatGPT's most hated writing habit, allowing users to remove em dashes — The Jerusalem Post
- OpenAI CEO Sam Altman Says New ChatGPT Is So Obedient It'll Quit Using Em Dashes On Command: 'Small-But-Happy Win' — Stocktwits







コメント
記事への感想や質問をどうぞ。コメントは承認後に公開されます。
コメントを書く