新規登録

この記事は下書きです。アクセスするログインしてください。

2022.10.27
Essay

都市の見えざる文化を可視化するTwitterの空間分析

桐村喬(皇學館大学文学部コミュニケーション学科准教授)

ユーザー同士が手軽にコミュニケーションを取る場であるソーシャルメディアは、今や個人だけでなく、さまざまな企業や行政機関も情報の発信や共有に利用するようになり、もはや社会のインフラのひとつともいえる状況になった。なかでも、2006年にサービスを開始し、2008年には日本語版が公開されたTwitterは、2011年の東日本大震災時に情報収集の手段として注目されるなど(*1)、広く社会で活用されている。
Twitter上でユーザーが発信するツイート(つぶやき)の内容からは、さまざまな情報を得ることができる。たとえば、ツイートには特定の商品やサービスに対する感想や反応が含まれることがあり、企業にとってはサービスへの反響を推し測る指標として非常に有用なデータとなっている。Twitterユーザーは、商品やサービスに限らず、その日に起こった事件や社会問題、身の回りの出来事など、多種多様なものに反応し、何らかの感想や自身の考え、場合によっては特に意味のない言葉をツイートすることもある。このような観点からすれば、Twitterデータは社会のセンサーとしての側面を備えているといえる。

ツイートには、ユーザー名やユーザーID、投稿日時などに加え、最大140字のテキストが含まれる。テキストは、アンケート調査や統計調査の回答のように、年齢や職業、趣味、嗜好のようなカテゴリー化されたデータは含まれないものの、視点によっては多くの情報をもつ。このようなTwitterデータから属性を読み取り、必要に応じてカテゴリー化することで、ユーザーの感情や行動など、数値化が難しい現象も定量的に分析することができる。
閲覧に制限をかけていない、公開状態のTwitterデータは、Twitter社が公開するAPIを通し、ユーザー登録をしたうえで無料で取得できる。そのため、APIの最初のバージョンが公開された2006年以降、世界中の研究者がTwitterデータの研究に取り組んできた(*2)。2021年からは、Academic Research accessと呼ばれる学術研究用のAPIが設けられ、Twitter社に申請し、認められた研究者は公開設定の過去のすべてのTwitterデータにアクセスできるようになっている。

また、ツイートにはジオタグ(位置情報)を設定して、どこでツイートしたかを発信できるようになっており、ジオタグ付きのツイートを収集・分析することで、どこでどのような反応が生じているのかを知ることができる。たとえばfig.1は、「(阪神)タイガース」「(中日)ドラゴンズ」「(広島東洋)カープ」の3つのプロ野球球団名を含む、2019年につぶやかれたジオタグ付きツイートを抽出し、そのユーザー数の比率を市区町村別に示したものである。いずれも兵庫県西宮市(タイガース)、愛知県名古屋市東区(ドラゴンズ)、広島県広島市南区(カープ)と、各球団の本拠地とその周辺、さらに九州や沖縄のキャンプ地で相対的に比率が高いことが分かり、これらの地域で各球団への関心が高いと判断することができる。
このように、Twitterというセンサーを通し、言葉として表れる都市住民の思考や習慣、文化など、従来は実証的に把握しづらかったものを可視化できるようになった。また、ジオタグ付きのツイートのデータは、多くのユーザーが自発的にジオタグを付与していることから、自発的地理情報(VGI: Volunteered Geographic Information)とも呼ばれ(*3)、主に公的機関が作成・提供してきた従来的な地理情報とは異なる、新しい地理情報として注目されている。

ジオタグ付きツイートについての研究は、①ユーザー情報の分析、②ツイートの内容の分析、③ツイートの関連情報の分析と大別できる。


①ユーザー情報の分析
ユーザー名のような個々のユーザー自体の情報を分析するものや、ユーザーIDで複数のツイートを横断的にまとめ、ユーザーの行動を分析しようとする研究である。たとえば、匿名性の高い使われ方をしている日本では想像しづらいが、実名での利用が比較的多いイギリスでは、人名と性別や年齢などに関するデータベースを活用し、Twitterのユーザー名をもとに、ユーザーの性別や年齢、民族などを推定している例もある(*4)。
一方、Twitterデータを利用した行動の分析は、ユーザーに振られた一意のIDをもとにして、ジオタグ付きツイートをまとめることで可能になる。fig.2は京都市にある4大学のキャンパス周辺で、10日以上ツイートしたことがあるユーザーのジオタグ付きツイートの位置を示したものである。それぞれのキャンパスだけでなく、通学時に利用する京都駅周辺やそこまでの移動経路上、また繁華街である四条河原町周辺などにツイートが集中しており、大学生(と考えられるユーザー)の主要な大学ごとの行動範囲とその住み分けが読み取れる。

②ツイート内容の分析
特定のキーワードを含むツイートの空間的な分布の分析や、テキストマイニングによって地域ごとのトピックを抽出するような分析である。
特定のキーワードに絞ってツイートを抽出・分析することにより、たとえば方言の空間的な広がりが把握できる。fig.3は、順接の接続詞として関西圏で使用される「やから」を含むツイートをしたユーザーの比率を示している。京阪神を中心にユーザーの比率が高い一方で、愛知県名古屋市以東では低いことが地図に表れている。方言調査は従来、紙媒体を中心とするアンケートによって行われてきており、空間的な分析の解像度(空間単位の細かさ)は都道府県や特定の調査地点単位になっていたが、Twitterデータを利用することで、全国を市区町村単位で分析するなど、任意のスケールで方言の地図を描き出すことができるようになった。

もう少し複雑な条件を設けてツイートを取り出すと、ユーザーの空間認識を垣間見ることもできる。Twitterでは「なう」を語尾につけ、現在行っていることや現在いる場所を発信することがある。そこで、「なう」の直前に地名が使われているツイートを抽出し、それらを地図にプロットすることで、個々のユーザーがジオタグに示された現在地をどの地名・地域に含まれていると認識しているのかを把握することができる。fig.4は新宿から渋谷にかけての地域で「なう」の前につけられた、いくつかの代表的な駅名・地名に注目してツイートを地図化したものである。この図からは、「新宿」と「新大久保」という地名に対しての認識の境界が職安通りの周辺にあり、「原宿」と「表参道」の境界は曖昧であることが分かる。

ジオタグ付きのツイートの内容をテキストマイニングして品詞に分解することで、特定の地域内でそれぞれの単語がどの程度重要なものとして使われているかを計算することもできる。fig.5は京都市を対象に、50m四方の格子状に区切られた空間単位で、20種類の使用ユーザーが多い地名や施設名の重要度を算出し、重要度が一定以上の地域(のうちで面積が最大のもの)をまとめたものである(*5)。「京都」は中心市街地の大部分で使われており、「嵐山」や「伏見」は郊外で独立して使われている。中心部には「祇園祭」の一定の空間的広がりも確認できる。

③ツイートの関連情報の分析
ツイートの内容よりも、特定のユーザーに宛ててツイートするメンションやリツイートの関係、ツイートに付加された言語などの情報を分析する研究もある。たとえば、イングランドとウェールズを対象として、ユーザーのプロフィールに含まれる位置情報とメンションの流れを組み合わせ、Twitter上のコミュニケーションの地域構造を可視化した研究などが挙げられる(*6)。
一方、ツイートには言語の情報も付加されている。fig.6の上の各図は、東京23区を対象に、日本語以外で使用ユーザー数の多い5言語について町丁単位での使用ユーザー比率の分布を示したものであり、下の各図はそのうち特に比率が高い範囲を示している。英語は六本木や渋谷を中心とする地域で高い比率を確認できるが、朝鮮語は新大久保や浅草の周辺などに比率の高い地域がある。タガログ語とインドネシア語、ベトナム語は、都心よりも周辺に比率の高い地域が集中している傾向にあり、民族別の居住分化(住み分け)との関連がうかがえる(*7)。東京23区のような広域を対象として、区の単位ではなく、町丁のような細かい空間単位で使用されている言語を把握することは難しく、ジオタグ付きツイートがなければ、このように詳細な空間的解像度の地図を描くことはできないだろう。


ジオタグ付きのツイートからは、Twitterユーザーが日々生み出してきたツイートを取り巻くさまざまな範囲、スケールの地理を描き出すことができる。人びとの行動や都市住民の空間認識、使用言語の地域差などは、従来個別のアンケート調査によって膨大な労力をかけて把握されてきた。しかし、Twitterデータを活用することで、さまざまな国や地域を対象としたり、国・地方・都市・都市内部とスケールを変えながら容易に可視化し、分析できるようになった。

一方で、Twitterは特定の企業が運営するプラットフォームであり、Twitter社がデータの仕様を変更すれば、研究利用も難しくなるかもしれない。現に、少なくとも日本では、2015年4月ごろを境に、付与されるジオタグの種類に変化が生じ、それ以降では特定の地点(緯度・経度)のジオタグよりも、市区町村単位のジオタグが付与されるツイートの方が多くなっており、ユーザーの行動を分析することはそれまでよりも難しくなっている(*8)。今後もそのような変化がないとは言い切れないが、付与されるジオタグの空間的スケールに合わせて、分析対象を適切に選定していく必要があるだろう。日本の場合は、市区町村単位のジオタグが付与されたツイートが最も多いため、都市内部のようなスケールでの行動の分析よりも、より広域的な行動やツイート内容の分析に関心が移っていくものと考えられる。
地理学にとっては、位置情報自体の分析よりもツイート内容を含めた分析から把握できることの方が、おそらくは未知の領域がより広いと予想される。たとえば文化や習慣のような、既存の統計データでは都道府県レベルでしか地域差を観察することができなかった現象も、ツイート上に表われるものであれば、定量的な分析の対象になり得る。地域に根差した特有の文化や習慣として捉えられてきたものでも、Twitterを通し、これまで見えなかったものに潜んでいる地理を可視化することで、差異の背景やその本質に、さらに迫ることができる。Twitterデータは、従来の調査手法では解明できなかった、さまざまな現象に対するまったく新しい答えを導き出してくれるかもしれない。


参考文献
*1:平成23年版情報通信白書(総務省、2011年、2022年8月30日閲覧)
*2:Introducing the Twitter API(2022年8月30日閲覧)
*3:Sui, D., Elwood, S. and Goodchild, M. eds.,「Crowdsourcing Geographic Knowledge Volunteered Geographic Information (VGI) in Theory and Practice」(Springer, Dordrecht Heidelberg New York London, 2013)
*4:Longley, P. A., Adnan, M. and Lansley, G.,「The geotemporal demographics of Twitter usage」 『Environment and Planning A』(47, pp.465-484, 2015)
*5:「ジオタグ付きツイートで用いられる名詞の空間的広がりと階層性-京都市における事例分析-」(『地理情報システム学会講演論文集28』、桐村喬・藤原直哉・平岡喬之共著、2019年)
*6:Rudy Arthur, Hywel T. P. Williams「The human geography of Twitter: Quantifying regional identity and inter-region communication in England and Wales」『PLoS ONE』(14,(4), 2019)
*7:「位置情報付きSNSログデータにみる使用言語の多様性-世界都市東京と観光都市京都の比較-」(『地理情報システム学会講演論文集25』、桐村喬著、2016年)
*8:『ツイッターの空間分析』(桐村喬編、古今書院、2019年)

桐村喬

1982年大阪府生まれ/2005年立命館大学卒業/2007年立命館大学大学院博士課程前期課程修了/2010年立命館大学大学院博士課程後期課程修了(博士(文学))/2010年立命館大学衣笠総合研究機構ポストドクトラルフェロー/2013年日本学術振興会特別研究員(PD)/2014年東京大学空間情報科学研究センター助教/2016年皇學館大学助教/2019年~皇學館大学准教授/2021年シンフォニカ統計GIS活動奨励賞受賞/著書に『ツイッターの空間分析』(古今書院、2019年)

桐村喬
デジタル
都市
続きを読む

プロ野球3球団の名称を含むジオタグ付きツイートを投稿したことがあるユーザーの比率(上:阪神タイガース、中:中日ドラゴンズ、下:広島東洋カープ)。それぞれ、本拠地の球場のある市区町村(兵庫県西宮市、愛知県名古屋市東区、広島県広島市南区)、キャンプ地のある市区町村(高知県安芸市、沖縄県北谷町、宮崎県日南市)で相対的に比率が高くなっている。(筆者が収集している2019年のTwitterデータを使用して作成)/提供:桐村喬

京都市内にキャンパスをもつ京都大学、同志社大学、立命館大学、龍谷大学のキャンパス周辺で10日以上ツイートしたことがあるユーザーのジオタグ付きツイートの分布。図中の★は京都大学、◆は同志社大学、●は立命館大学、■は龍谷大学の主なキャンパスの位置を示している。それぞれのキャンパス周辺と、通学経路や京都駅などのターミナル駅周辺、繁華街の四条河原町周辺にツイートが集中しており、大学生と考えられるユーザーの市内での行動がよく分かる。(筆者が収集している2012年1月~2013年11月のTwitterデータを使用して作成)/提供:桐村喬

「やから」を含むツイートを投稿したことがあるユーザーの比率。京阪神を中心にユーザーの比率が高い一方で、名古屋市以東では低いことが分かる。(筆者が収集している2019年のTwitterデータを使用して作成)/提供:桐村喬

「なう」の前に使われた主要な地名からみたユーザーの空間認識。「新宿なう」と「新大久保なう」の境界が職安通りの周辺にあることや、「原宿なう」と「表参道なう」の境界が曖昧であることなどが分かる。(筆者が収集している2012年1月~2017年2月のTwitterデータを使用して作成)/提供:桐村喬

ツイート内で使用される地名などの20種類の名詞の重要度が高い地域の広がり。「京都」は中心市街地の大部分で使われており、「嵐山」や「伏見」は郊外で独立して使われている。中心部には「祇園祭」の一定の空間的広がりも確認できる。(筆者が収集している2014年1月~2018年3月のTwitterデータを使用して作成)/提供:桐村喬

東京23区でのユーザー数上位5言語の使用ユーザー比率の分布(上:比率、下:比率の高い地域が統計的に一定のまとまりをもつ範囲)。英語は六本木や渋谷を中心とする地域で高い比率を確認できるが、朝鮮語は新大久保や浅草の周辺などに比率の高い地域がみられる。(筆者が収集している2014年のTwitterデータを使用して作成)/提供:桐村喬

fig. 6

fig. 1 (拡大)

fig. 2