日本語の音声認識が難しいとAI開発者が考えている3つの理由とは

アルファベットの大小26種類の文字の組み合わせで、言葉が基本的に成り立っている欧米の言語に比べ、日本語はさまざまな点から一般的には難しいあるいは特殊な言語体系だとされています。
まず漢字、ひらがな、カタカナと文字が3種類もあり、主語を省く、どちらとも取れる曖昧な表現の多様、助詞（いわゆる「てにをは」）や接頭語・接尾語の使い方、独特の略字が頻発するなどです。それらが日本語は特殊な言語だとか難しいという、一般的に抱いているイメージにつながっているように感じます。

今回はそうした言語（言葉）をテーマに、斎藤由多加さんによる「AI 開発で明らかになった”日本語の正体”」という講演テーマを聞きながら、前回の講演で岩崎さんも語られていた「どの文化を基準にする」のかと同様、あらためて私たちの文化について考える貴重な機会となりました。

第5回目の基調講演に登壇した斎藤由多加さんは、私自身はアップル社のマッキントッシュ研究家として馴染んでいるのですが、むしろ20年前に社会を席巻するほどの大ヒットとなった「シーマン」の開発者としてのほうが高名でしょう。「シーマン」は音声認識による育成シミュレーションゲームで、20年前に開発されて爆発的なヒットとなりました。
現在は、日本語のAI研究開発をする「シーマン人工知能研究所所長」で、日本語の会話に基づく音声認識のAI研究と開発に取り組んでいます。

今回は、私にとってもなかなか難しい内容で、斎藤さんの話に私がどれだけついて行けたのか確信はありません。この基調講演を聞きながら、私自身が考えたことも含めて述べることでみなさんにも一緒に考えていただけたなら嬉しく思います。

会話体（口語）は文章（文語体）より難しい

斎藤さんは、音声認識の難しさを3点ほど挙げました。
冒頭、言語学者ではないがと断ったうえで「日本語の日常会話には文法がない」と発言し、日常会話にもとづく音声認識エンジン開発の難しさに言及しました。それは、日本語がいわゆる欧米的な文法＝SVO（主語＋動詞＋目的語など）に則っていないということで、それはシーマンを開発したときから長年思い続けているようで、いまのロボット（AI）との会話にも失望することが多く、日本語の会話体のもつ難しさについては変わらないという印象のようでした。

日本語はよく主語を省く言葉だと言われています。文章でもそうした傾向はありますが、日常的な会話でさらに顕著です。たとえば「それ、食べたい！」という文章を例にとれば、会話においては「私は、それを食べたい。」ということなのか「あなたは、それ食べたい？」と相手に確認しているのか、抑揚やイントネーションなどによって会話として成立させます。
なかでも、私たちが日常的に何気なくしている相づち（へえ〜、ほ〜、だよね、なるほど等々）は、会話には不可欠なのですがこれが一段と難しそうです。

斎藤さんは、そうしたことから日本語の秘密はメロディにあるのだと語ります。これが英語であれば、きっと“I wanna eat it.”あるいは“You wanna eat it?”と、前者の自分の主張と後者の相手に確認を求めることでは抑揚やイントネーションが異なる点ではそれほど違いはないでしょうが、主語があるぶんだけ音声認識しやすいのでしょう。
シーマン人工知能研究所では、昨年（2017年）から九州大学大学院言語文化研究院と共同で、「メロディ言語認識」という会話型AIのための音声認識（新口語文法体系）の研究開発を行っています。

また、日本語では二人称（相手のこと）をあなた（貴方・貴女）、君、おまえ、貴様など、基本的にyouだけの表現しかない言語（スペイン語などでは、tuとustedなどがありますが）と比べると、相手やその時々の状況に応じて多彩に使いわける難しさがあるでしょう。

次に、接頭語と接尾語です。「お」「こ」「御」などがそうです。「客」は「お客」ですし接尾語をつければ「お客さん」あるいは「お客様」と2種類もあります。しかも、接尾語は「男らしさ」や「春めく」など各々の言葉単独とは微妙に異なる意味を付与されたニュアンスをもちます。
同じように終助詞（〜かな、〜よ等）も単独では使用されず、各々の単語と一緒に使われます。そうしたことから、私たち日本人はとくに難しい言語だとは認識していませんが、それを習得しようとしている人たちからすれば、日本語は複雑で難しいという印象や認識があるのだろうと思います。

3つめに、日本語的特長の略字が多いことも上げられます。パソコン（パーソナルコンピュータ、英語ではPCが略字）やワープロ（ワードプロセッサー）、スマホ（スマートフォン）、マクド（マクドナルド）などはその代表例でしょうが、ドリカム（ドリームズ・カム・トゥルー）やミスチル（ミスター・チルドレン）など、会話で発音するにはちょっとでも長いと思われる言葉はなんでもかんでも勝手に略す傾向があることはだれでも実感をもっているでしょう。
こうした“ガラパゴス略語”は極端にいえば、日々生成されAIの学習が完了したころには“死語”としてだれも使わなくなっているかもしれない、という笑えない可能性もあります。

上記にあげた理由などのほかにも、会話体で頻繁につかわれるオノマトペ、その人の独特な話し方（言葉遣い）、滑舌の善し悪し、語尾が明確な人か否かなど、文章に比べると認識しなければならない要素が多いということもあるでしょう。ですから、音声認識は開発者の立場からすれば日本語は難しいと感じているだろうと思います。

もっとも、私は言語学者ではないので的確なことがいえませんが、アラビア文字（アラビア語など）やサンスクリット文字（タイ語など）のほうが、習う側からすればむしろ難しそうという印象があるのですが。

データジャーナリズムとAI記者

今回の田代さんの講座では、データジャーナリズムやAI記者についての興味深い話です。最近のニュースでも取り上げられている中国の監視社会の情況について話がありました。
これまであまり精度が高いとはいえなかった顔認証技術ですが、なんと99％という高精度を誇る顔認証技術というまるで海外ドラマの犯罪捜査ものなみの精度の技術が活用されているのです。

中国では、学校や駅などをはじめとしてあらゆる場所が監視対象となっており、すでに警察では犯罪対策としてメガネ型端末を導入したことで、捜査の効率化が高まり軽微な犯罪でも軽減されたり未然に防いだりする効果が現れ、また学校でのいじめがなくなっているとのこと。
その一方では、あらゆる場所でAIによる顔認証による監視システムが作動しており、国民に「信用スコア」と呼ばれる格付けが行われているほどです。これにより、プライバシーや人権あるいは少数民族（ウィグル族など）を監視するなどの問題が懸念されています。
しかも中国国内だけではなく、アフリカ・ジンバブエ政府との協力により黒人の顔データ収集への糸口を手に入れているほどです。

世界でもっとも犯罪の多発する国といわれている米国、それも学校や公共の場で銃乱射事件が多い国、テロ活動などが頻発しているEU諸国や中東などを含め、顔認証による管理が世界的規模で展開されたらどうなるでしょう。
もちろん、犯罪やいじめなどは大きく減少するでしょう。しかし、世界中どこにいても常にだれか（政府や警察当局など）の監視の目につきまとう状況となります。

いつの日か、混沌としてはいるが自由な社会か、整然としてはいるが管理統制された社会かの選択を人間は迫られるのではないだろうかと感じます。

さて、そうしたAIは現在メディアでの利用はどのような状況でしょうか。データジャーナリズムという言葉がありますが、それはすでにAI記者による記事作成となって一部では日常化しつつあります。
日経新聞のマーケット情報（決算サマリーなど）、西日本新聞ではAI記者が作成する天気予報の記事などです。天気予報ではコンピュータによる分析が進んでいて精度がかなり向上していますが、なにしろ大自然が相手なのでもちろん限界はあります。
さらに、すでにそうした報道機関向けにSNSの記事からAI記事を提供する「Spectee」の活用も進んでいます。

また、これはAIとは異なりますが、たとえばニュース映像などでも360度で見渡せる「NHK VR」などもあります。こうしたテクノロジーの進歩はスポーツやコンサートあるいは国際的カンファレンスなど、その場にいなくてもHMD（ヘッドマウントディスプレイ）を装着することで、あたかもそのライブ会場にいるような錯覚を覚えるほどの体験を提供できるサービスとなるでしょう。

AIによる広報の日も近い

AIによる経営分析の判断に従うような社会になったとき、空気を読んで同調するだけの経営幹部層はどうなるのでしょうか、データ分析などに基づいた経営コンサルティングをしている企業は、あるいはマーケティングリサーチ企業は存続するのだろうかなどさまざまなことを考えます。

かりに、データ分析がどちらとでもとれるような結果を提示したようなとき、人間本来の価値が問われるでしょう。つまり、データ分析だけからは得られない微細な兆候を読むインスピレーション、データに潜む情報や深層にあるなにかを洞察するあるいは思いもしないような視点や着想などがそうです。
しかし、これとてもAIが急速に進歩していくなかで、そうしたことを代替するようにならないとは断言できません。つまり、人間が見逃していたり気づかなかったようなことでも提示するようになるかもしれないと。

PR企業も、こうした大激変を避けることはできません。発表資料として作成されるプレスリリースやニュースリリースはAIが自動作成するようになり、配信もあらかじめ登録しておいたメディアにその発表する製品やサービスの特性に応じ、ターゲットのメディアごとに自動で配信してくれるようになる日もそれほど遠くはないでしょう。

自社での独自のアンケート調査、データ分析とそのレポート作成から配信までもAIが代行してくれるようにもなるでしょう。さらに、HMDを装着すれば、記者発表などの会場にいるのと同様の体感を提供できるようにもなります。これはインフルエンサー、アンバサダーと言われているブロガーたちにはきっと喜ばれるでしょう。たとえば、熱狂的なファンの多いアップル社の米国での発表イベントなどを会社や自宅に居ながら、まるで現地の会場にいるかのような雰囲気を体感できるということです。

そうしたテクノロジーが進展していくなかでは、競合や他社にない独自のサービスや価値をできなければ、淘汰されるあるいはPR企業や業界も再編も免れないような気がします。

20世紀は先日紹介した『教養としてのテクノロジー』でも問題視されていた「スケール・イズ・エブリシング」でした。企業も規模が重要でした。メディアも同様でしたが、これからのとくに情報サービス企業や産業において、どれだけ多様性がありかつ独創（創造）性と知見にすぐれた少数先鋭の人材を確保できるか。それが企業にとっての生き残りと成長につながるのではないかと感じます。

ところで、つい先日、AIの医療ルールづくりのニュースがありました。今後、たとえば患者の病状の診断についてのセカンドオピニオンとしてのAIを活用するなどということがあるかもしれませんし、米国では自動運転車での事故においてはソフトウエア企業の責任となるとの中島聡さんの話でしたが、AIが誤診をした場合の責任所在などはどうなるのかなども今後の議論となるでしょう。

今回も、基調講演と連続講座を聴きながら様々なことについての気づきや示唆があり、私にとっては得がたいものでした。

梅下武彦

コミュニケーションアーキテクト（Marketing Special Agent）兼ブロガー。マーケティングコミュニケーション領域のアドバイザーとして活動をする一方、主にスタートアップ支援を行いつつSocialmediactivisとして活動中。広告代理店の“傭兵マーケッター”として、さまざまなマーケティングコミュニケーション業務を手がける。21世紀、検索エンジン、電子書籍、3D仮想世界など、ベンチャーやスタートアップのマーケティング責任者を歴任。特に、BtoCビジネスの企画業務全般（事業開発、マーケティング、広告・宣伝、広報、プロモーション等）に携わる。この間、02年ブログ、004年のSNS、05年のWeb2.0、06年の3D仮想空間など、ネットビジネス大きな変化の中で、常にさまざまなベンチャー企業のマーケティングコミュニケーションに携わってきた。

日本語の音声認識が難しいとAI開発者が考えている3つの理由とは

会話体（口語）は文章（文語体）より難しい

データジャーナリズムとAI記者

AIによる広報の日も近い

目次

Table of Contents

日本語の音声認識が難しいとAI開発者が考えている3つの理由とは

会話体（口語）は文章（文語体）より難しい

データジャーナリズムとAI記者

AIによる広報の日も近い

関連記事:

目次

Table of Contents