浮動点から世界を見つめる (旧:気の向くままに)

井蛙には以って海を語るべからず、夏虫には以て冰を語るべからず、曲士には以て道を語るべからず

ネットワークの構造(1) スケールフリーとは?

山口裕之『ひとは生命をどのように理解してきたか』(8)

今回は、第1章 生命科学の急発展と「遺伝子」概念の揺らぎ 第3節 ネットワークとしての生命 第3項 ネットワークの構造 である。山口は、前項「システム生物学の登場」の最後のほうで、生物学研究において「情報」という言葉が氾濫している一方で、生物が持つ「情報」とは、何が媒体で、何を表現しており、誰が(何が)その情報を受け取るのか、といった基本的な部分が曖昧になってきているように思われる、と述べている。

そうした現状に対して、ゲノム[遺伝子の全体]やトランスクリプトーム[転写産物]やプロテオーム[タンパク質の総体]などの膨大なデータをうまく整理してくれる理解枠組みを見出そうという問題意識のもと、システム生物学という研究分野が立ち上げられつつある。そこでは、遺伝子制御ネットワーク代謝ネットワークシグナル伝達ネットワークなど、生物において見出される様々なネットワークシステムの構造や特性が解析されようとしている。生命現象を遺伝子やタンパク質などの個別的な要素に還元してしまおうとするとデータが膨大になりすぎ、到底「理解」できるものではなくなるので、それらが全体としてどういうシステムを構成しているのかを考えようというのである。

本書の発行は、比較的最近の2011年である。このような文章を読むと(読まなくとも、医療の現状から実感できることだが)、あらためて分かっていないことが多いんだなと思う。研究者にとっては、「だから面白い」ということになるのかもしれない。

 

まずは基本的なところから。ネットワークとは?

net ネット(=網)状の、workワーク(=作られたものごと)の総称。

  • 人と人をつなげるしくみ。「サポートネットワーク」(=援助のための人のつながり)など。
  • 人と人が連絡するための網状のしくみ。 → 連絡網
  • 人と人のつながり。 →人脈
  • 企業の、本社・支社・支店・営業所などを網状につなぐしくみ。サービス拠点や、販売用店舗のつながり。
  • 本部と地方にある部署とを連絡するための体系の総称。→連絡網
  • 交通に関して(鉄道、道路 等々を)網状につなげたシステム。→道路網、鉄道網、航空網
  • 番組を同時に放送するための放送局のグループのこと。→放送網
  • 通信のための網状のしくみ。→通信網
  • コンピュータをつないだものや機械をつないだもの。→コンピュータネットワーク
  • 電気伝導体をつないだもの。→電気回路
  • 回路部品が複数、網状に含まれる複合素子のこと。→抵抗ネットワーク、クロスオーバーネットワーク
  • データモデルの一種で、網状のそれのこと →ネットワーク型データモデル (Wikipedia、ネットワーク)

ネットワークとはこのようなものであるとの大まかなイメージを持っておこう。このようなネットワークに共通する性質に興味関心があれば、以下の説明を読む気にもなろう。

以下のネットワークの解説を理解するための基本的な用語について;

f:id:shoyo3:20190428125327j:plain

  • グラフによって、様々なものの関連を表すことができる。例えば、鉄道や路線バス等の路線図を考える際には、駅(ノード)がどのように路線(エッジ)で結ばれているかが問題となる。 線路が具体的にどのような曲線を描いているかは本質的な問題とならないことが多い。したがって、路線図では駅間の距離や微妙な配置、路線の形状などがしばしば地理上の実際とは異なって描かれている。 路線図の利用者にとっては、駅と駅の「つながり方」が主に重要な情報なのである。このように、「つながり方」に着目して抽象化された「点とそれらをむすぶ線」*1の概念がグラフであり、 グラフがもつ様々な性質を探求するのがグラフ理論である。
  • グラフ理論は、ノード(節点・頂点)の集合とエッジ(枝・辺)の集合で構成されるグラフに関する数学の理論である。
  • 2頂点間(隣接している必要はない)を経由する辺数を長さと呼び、特に最短経路における辺数を距離と呼ぶ。
  • 頂点に接続する枝の数を次数という。(Wikipediaグラフ理論)

「駅間の距離や微妙な配置、路線の形状など」を問題にせず、「関連」を問題にしている。「全体」を理解するための一つの見方(抽象)だろう。「駅間の距離や微妙な配置、路線の形状など」が重要ではないということを意味しない、ということに留意しておきたい。

ネットワークには、以下の3つの性質(スケールフリー性、スモールワールド性、クラスター性)があるという。(以下、Wikipedia「複雑ネットワーク」による)。

 

1.スケールフリー性(次数分布のべき乗則

これは、一部の頂点が他のたくさんの頂点と辺で繋がっており、大きな次数を持っている一方で、その他の大部分はわずかな頂点としか繋がっておらず、次数は小さいという性質である。次数の大きな頂点は「ハブ」とも呼ばれる。

次数とは、頂点(ノード、節)に接続する辺(エッジ、枝)(リンクとも言う)の数であった。上図の②④⑤は3本の辺を、①③は2本の辺を、⑥は1本の辺を持つ。

スケールフリー性の例示;

スケールフリー性は、社会学をはじめとするこれまでの研究により、現実世界のネットワークで幅広く観察されている。例えば、人々の持っている知人関係の数をみると、一部の人は非常にたくさんの知人を持っているが、大多数の人々の知人の数は限られている。WWWではごく少数の有名サイトが数百万単位のリンクを集めているが、大多数のサイトはわずかなリンク先からしリンクされていない。生体内の相互作用でも、ごく一部のたんぱく質が多数のたんぱく質と反応する構造になっている。男女の性的関係でも、ごく一部の人は何百人という相手と関係するが、大多数の人々は限られた相手としか関係を持たない。

しかし、上の説明だけでは、スケールフリーとはどういう意味なのかよくわからない。

数学的には、スケールフリー性は、頂点が次数 k を持つ確率 p(k) の確率分布が p(k) ∝ kべき乗則になると表現される。[γ:ガンマ]

ベキ分布べき乗則)の図を見てみよう。

f:id:shoyo3:20190428130331j:plain

このようなべき分布では

分布の偏りを特徴付ける平均的な尺度(スケール)といったものが存在しない。グラフがこのような性質を持つことを「スケールフリー」と呼ぶ。また、このような確率分布のとき分散 V は無限大となる。

スケールフリーとは、べき関数y=x^n においては、「分布の偏りを特徴付ける平均的な尺度」(スケール)が存在しないという意味であると理解しておこう。(現実のネットワークが、べき分布であり、分布の偏りを特徴付ける平均的な尺度が存在しない、ということを意味しない)。*2

f:id:shoyo3:20190428130513j:plain

https://syodokukai.exblog.jp/20771928/

 

べき分布の例として、よくパレートの法則(80:20の法則)(世の中にはごく一握りのきわめて収入の多い人たちがおり、人口の大多数はわずかな収入しかない)がとりあげられる。

ここで、平成29年分民間給与実態統計調査の給与所得のデータ*3から分布図を描いてみよう。横軸は、各「給与階級」の平均値(単位:万円)であり、縦軸は、「給与所得者数」の構成比(単位:%)である。(例えば、平均給与448万円の所得階級の給与所得者数の構成比は18%である)。

図1 給与階級別給与所得者数(パレートの法則

f:id:shoyo3:20190428130701j:plain

これを見ると、500万円以上で、べき分布に似ている。試しに、この同じデータで、べき分布を描いてみると、図2のようになる。*4

図2 べき分布

f:id:shoyo3:20190428130851j:plain

図1を図2と見做すことは、妥当だろうか。私は、そう見做してもいいが、「それでもって何を言いたいのか?」が問題であると思う。「給与所得」に関して言えば、1000万円以下の「正規分布」に見えるようなところにこそ、問題が潜んでいると考えている。したがって、「べき分布は、所得分布の全体構造を表している」などと、「数学モデル」が「現実」であるかのような記述は要注意である。これは社会現象だけでなく、自然現象でも言えることではなかろうか。

 

本書に戻り、山口は次のように言っている。

人間関係や航空機の運行経路など、現実社会における様々なネットワークはこうしたスケールフリー・ネットワークの形を取ることが多いのだが、遺伝子やタンパク質の相互作用など、生物学的なネットワークもまた、こうした形になるらしいということが明らかになってきた。つまり、多くのタンパク質と相互作用する「ハブ」となるタンパク質と、ある特定のタンパク質としか相互作用しないタンパク質とがあるということだ。さらには、脳の神経細胞のネットワークも同様の形を取っている同様の形を取っているのではないかとも言われている。スケールフリーという構造は、生物に関連する様々なネットワークにおいて普遍的に見られる構造のようである。

赤字にしたところはその通りだろうと思うが、だからといって「スケールフリーという構造は、生物に関連する様々なネットワークにおいて普遍的に見られる構造のようである」と言うのは飛躍であるように思われる。

*1:松本清張の小説に「点と線」というのがある。映画化やTVドラマ化されている。グラフ理論と関係ある? 関係ない?

*2:本書は、「なぜこうした構造のネットワークを「スケールフリー」と言うのかというと、フラクタル図形と同様に、こうしたネットワークは、縮尺(スケール)を変えてみても同じ形になるからである。航空機の運行経路について言えば、国内線の路線図を見ても、そうした細かい部分が目立たない国際線の路線図を見ても、多くのエッジが伸びた少数のハブと、一つ二つのエッジしか伸びていない多数のノードとで出来た同じような形に見えるということだ。要するに「スケールフリー」とは、「縮尺が関係ない」という意味である。」と述べているが、これは紛らわしい。スケールとは、「縮尺」ではなく、「分布の偏りを特徴付ける平均的な尺度」と考えた方がよいだろう。

*3:平成29年分民間給与実態統計調査(平成30年9月公表)の「第3表 給与階級別の総括表」のうち、「1年を通じて勤務した給与所得者」の「男」のデータによる。(http://www.nta.go.jp/publication/statistics/kokuzeicho/minkan2017/minkan.htm

*4:y=x^nのnを-0.9とし、縦軸目盛(給与所得者数)を調整した。