電話帳は万能か

 最近、電話帳を使った名字の調査が盛んです。これは、電話帳のCD-ROMが出まわっていることと、パソコンの性能の向上により、巨大なデータを自宅で解析することが可能になったためです。電話帳CD-ROMの膨大なデータを分析して、名字の種類や頻度をとった結果がホームページや書籍などで公開されています。
 ところで、こうした電話帳データをつかった名字の分析はどこまで有効なのでしょうか?
 一番有効なのは、そのサンプルの膨大さです。悉皆調査ができない日本では、名字の頻度はサンプル調査に頼らざるを得ません。今までは生命保険会社のデータが最も大きなものでしたが、電話帳にはさらに多い3000万軒のデータが収録されています。おそらく、これ以上のサンプルはないでしょうから、分析用の資料としてはたいへん価値が高いといえます。ただし、電話帳は名字分析用に作られたわけではありませんから、利用に当たっては充分な注意が必要です。今公開されているデータをみる限り、解析した方はコンピュータ関係の方が多いようで、ただ機械的に処理をしているだけではないか、という気がしています。

電話帳利用の問題点
●本名とはかぎらない---電話帳には本名で登録しなければいけない、という決まりはどこにもありません。東京の電話帳には「三遊亭〜」という登録がありますし、他にも本名以外で登録している方はたくさんあります。地方では、屋号での登録ということもあります。また、漢字が難しい場合、一部をひらがなで登録することもあります。
●ヨミの記載がない---電話帳には個人のヨミは載っていません。各ページの肩に書いてある小見出しから類推することしかできません。
●姓名間の区切りがない---電話帳では姓名間の区切りのないものがたくさんあります。五文字の姓名の場合、名字が2文字が3文字かを区別することは困難なことがよくあります。

CD-ROM版の電話帳の場合
●掲載されているヨミは信用できない---電話帳にはヨミがありませんから、ヨミの掲載されているCDのヨミは製作会社の人が勝手に読んだものです。東(ひがし、あずま)の区別はできますが、田上(たうえ、たがみ)の区別は非常に難しいです。ソフト会社がそこまで気を配っているとはとても思えません。
●姓名間区切りはミスが多い---CD-ROMの場合、名字だけの検索ができるように、個人名はすべて姓名間を区切っています。ただし、この区切りも製作会社の方が勝手に区切ったもので、ミスがたくさんあります。そのまま信じて姓の頻度をとると、おかしな結果になります。
●似た字のミスがある---NTTは電話帳のデータを各ソフト会社に提供しているわけではありません。各会社は自力で電話帳からデータを入力しているのです。その際、通常はOCRを利用します。現在のOCRは精度が向上していますが、電話帳は字が小さいためどうしてもミスがあります。「臼」→「日」など、似た字は注意が必要です。また、「江口」が「江ロ(←カタカナの“ろ”)」になっていたりします。

大事なことは、電話帳に載っていないから、その名字が存在しない、というわけではありません。また、電話帳に載っていたから、その名字が存在するというわけでもない、ということです。
なお、近年携帯電話やPHSの普及によって、電話帳の掲載件数が減少の一途をたどっています。正確な調査をするためには、1990年代前半あたりの電話帳(冊子)を利用した方がいいでしょう。