研究メモブログの目次

ハプロタイプネットワークの描画 by Network

こんにちは~ ガイです。

ハプロタイプネットワークを描いてみよう、の記事です。

わたしがハプロタイプネットワークを描くのに使っていたソフトウェアは二種類あります。今回はNetwork のご紹介ですが一応二つともおいておきます。

 

はじめに

Network vs popART

popART 

  • 良いところ
    • input さえ決まれば配置はすべてソフトウェアがやってくれるので描画そのものが非常に楽!
    • 色分けの凡例や、円のサイズが何個体に対応するかなど、勝手につけてくれる
  • 悪いところ
    • 距離が大きいハプロタイプ間でネットワークを描こうとするとソフトウェアが落ちるので、種を超えるネットワークを描くのは難しい
    • input がちょっとでもおかしいと動かないが、input の間違い探しが難しい

 

よって、距離が近いハプロタイプ同士でネットワークを描くを描くときにはpopART のほうがおそらく楽です。

 

Network

  • 良いところ
    • ハプロタイプ間の距離が種差レベルに及んでもスイスイで描ける。

 

  • 悪いところ
    • input 作りが面倒。
    • ネットワークを自力で解きほぐさなくてはいけないので、脳の血管が切れそうになる
      • 以下で使い方を見ればここで言っている意味はわかる、はず
    • なぜかイメージのベクターpdf での出力ができないのでillustrator で色を変えたり線の太さを編集したりができない
      • バグだと思うのでバージョン変えたら直るかも
    • 色分けの凡例や、円のサイズが何個体に対応するかなど、勝手につけてくれない
      • わたしが見つけてないだけでそういうオプションがある可能性はあります
      • 見つけたら教えてください…泣

 

実は、Network に関しては先にすでに記事を作成してくださった方がいて、これを見ればおそらくできるのですが、自分がやったとき理解が追い付かなくて苦労したので、一応より丁寧めに書いておこう、というのが本記事の趣旨になります。

参考記事です。

ハプロタイプネットワーク構築 – チームてづるもづる (tezuru-mozuru.com)

 

input の作成

1.全個体分の配列データを .fasta 形式で保存

数百個体扱っているとまずこれがめんどくさい

アラインメント時間かかりすぎ問題

 

2.DNAsp でそのファイルを読み込む
  • File > open data file
    • Data Information タブはそのままclose してよい
  • Generate > Haplotype Data File でHaplotype/DNA Sequences Data File Option を表示させる
  • GenerateのRoehl Data File(Network software)をチェックし,.rdfファイルを出力する
    • 重要】この時Output of:… というウィンドウが表示されるが,これはハプロタイプとOTU名の対応が書かれた重要なデータなので,メモ帳にコピペなどをして保存しておく
    • f:id:nemunemu_nyanko:20211219141133p:plain

      Out of: ウインドウはこんな感じ。下のほうにスクロールすると出てくるハプロタイプ番号と個体番号との対応をコピペして保存しておく。

 

Network での作業開始

1.Data Entry > Import rdf fileでinput の .rdfファイルを読み込む
  • File selection ウィンドウでDNA Nucleotide data がチェックされている事を確認してContinue をクリックし、.rdf ファイルを開く

 

2.RDF-Editorウィンドウで各種設定を確認・変更可能
  • f:id:nemunemu_nyanko:20211219141824p:plain

    数字やSequence(ハプロタイプ名)をダブルクリックで書き換えられる。この画面はハプロタイプ名を書き換えている途中のもの。どのハプロタイプがどの地域のどの個体のものなのか、この段階で書いておくと後の自分が幸せになる。
  • 設定が終わったらSave をクリックし,元の.rdf ファイルを上書き,あるいは別名で保存(何かミスった時のために別名保存がおすすめ)
  • RDF-Editor ウィンドウをExit で閉じる

 

  • 3.Calculate Network > Network Calculations > 自分の使いたい計算方法を選択
  • たとえば、Median Joining を選ぶとMedian Joining ウィンドウが開く
  • Median Joining ウィンドウでFile > Openで.rdfファイルを再び開く
  • 計算ウィンドウで【Calculate network】 をクリックすると計算が開始され,.out ファイルが出力される

 

メインウィンドウのDraw networkでDraw Networkウィンドウを表示させ,File > Openで.out ファイルを開く
  • OK > Yes > Continue > Finaliseハプロタイプネットワークが出てくる
    • 最初はなにこれ?!というくらいにこんがらがっているのでこれを解きほぐしていく
    • このブログを書くにあたってユーザーガイド(Network10200_user_guide.PDF (fluxus-engineering.com))を読みかえしていて気がついたのですが、「In phylogenetics, the network nodes are living or extinct sequences with specific mutations. Descendants of a node can be grouped into a cluster or branch, also known as a clade (greek klados, branch). When the number of characters (loci) under consideration is extended, the sequence may be differentiated into sub-sequences, and the branches become longer.」とあるので枝長は最初に表示されたものからあまり変えないほうがいいのかもしれないです
    • しかし、どのみち枝長が完全に正確な遺伝的距離を反映しているわけではないので、大幅に変えないようにしつつ見やすいように図をほぐしていく必要はあると思います
    • 正解はわたしにもわかりません(ごめんなさい)
    • f:id:nemunemu_nyanko:20211219152424p:plain

      こんがらがったネットワーク。ここから解きほぐすと思うときが遠くなります。
    • f:id:nemunemu_nyanko:20211219163903p:plain

      Display paremeters にチェックを入れたり外したりすることで表示内容を変えることができます。mutated position やmuted position lines はネットワークをほどく間じゃまになるだけなので消しておいた方がやりやすいと思います。Nodes propotional to frequencies も最初の内は消しておいたほうがばらしやすい。
    • f:id:nemunemu_nyanko:20211219170045p:plain

      ほぐし途中。脳の血管切れそう。
  • 解きほぐし終わったらハプロタイプを色分けする
    •  各ハプロタイプを右クリックすると,円グラフの組成がいじれる
      • ここでDNAsp で保存したハプロタイプ一覧が生きてくる
      • ネットワーク上ではrdf. 編集で付けた名前で表示されるので、先に分かる名前を付けておくと楽
      • f:id:nemunemu_nyanko:20211220091323p:plain

        右クリックでこういう画面が表示される。表示されなかった場合は、画面の倍率を上げたり下げたりするとよい。
    • たとえば、違う地域で同じハプロタイプを持っている個体について地域ごとに色分けしたいと思ったら、円グラフに地域ごと個体数を入力しなくてはいけない(これがなかなか面倒くさい)
    • popART だとこの辺をインプットファイルの時点で入力しておくので一個一個当てていく必要はなく、その点は非常に楽

 

完成図を公開したいところなのですが、論文化前なので一応控えておきます。論文出たら足します。

いつになるやら…。