こんにちは~ ガイです。
ハプロタイプネットワークを描いてみよう、の記事です。
わたしがハプロタイプネットワークを描くのに使っていたソフトウェアは二種類あります。今回はNetwork のご紹介ですが一応二つともおいておきます。
- Netrork:Free Phylogenetic Network Software (fluxus-engineering.com)
- PopART:popart.otago.ac.nz/index.shtml
はじめに
Network vs popART
popART
- 良いところ
- input さえ決まれば配置はすべてソフトウェアがやってくれるので描画そのものが非常に楽!
- 色分けの凡例や、円のサイズが何個体に対応するかなど、勝手につけてくれる
- 悪いところ
- 距離が大きいハプロタイプ間でネットワークを描こうとするとソフトウェアが落ちるので、種を超えるネットワークを描くのは難しい
- input がちょっとでもおかしいと動かないが、input の間違い探しが難しい
よって、距離が近いハプロタイプ同士でネットワークを描くを描くときにはpopART のほうがおそらく楽です。
Network
- 良いところ
- ハプロタイプ間の距離が種差レベルに及んでもスイスイで描ける。
- 悪いところ
- input 作りが面倒。
- ネットワークを自力で解きほぐさなくてはいけないので、脳の血管が切れそうになる
- 以下で使い方を見ればここで言っている意味はわかる、はず
- なぜかイメージのベクターpdf での出力ができないのでillustrator で色を変えたり線の太さを編集したりができない
- バグだと思うのでバージョン変えたら直るかも
- 色分けの凡例や、円のサイズが何個体に対応するかなど、勝手につけてくれない
- わたしが見つけてないだけでそういうオプションがある可能性はあります
- 見つけたら教えてください…泣
実は、Network に関しては先にすでに記事を作成してくださった方がいて、これを見ればおそらくできるのですが、自分がやったとき理解が追い付かなくて苦労したので、一応より丁寧めに書いておこう、というのが本記事の趣旨になります。
参考記事です。
ハプロタイプネットワーク構築 – チームてづるもづる (tezuru-mozuru.com)
input の作成
1.全個体分の配列データを .fasta 形式で保存
数百個体扱っているとまずこれがめんどくさい
アラインメント時間かかりすぎ問題
2.DNAsp でそのファイルを読み込む
- File > open data file
- Data Information タブはそのままclose してよい
- Generate > Haplotype Data File でHaplotype/DNA Sequences Data File Option を表示させる
- GenerateのRoehl Data File(Network software)をチェックし,.rdfファイルを出力する
- 【重要】この時Output of:… というウィンドウが表示されるが,これはハプロタイプとOTU名の対応が書かれた重要なデータなので,メモ帳にコピペなどをして保存しておく
Network での作業開始
1.Data Entry > Import rdf fileでinput の .rdfファイルを読み込む
- File selection ウィンドウでDNA Nucleotide data がチェックされている事を確認してContinue をクリックし、.rdf ファイルを開く
2.RDF-Editorウィンドウで各種設定を確認・変更可能
-
3.Calculate Network > Network Calculations > 自分の使いたい計算方法を選択
- たとえば、Median Joining を選ぶとMedian Joining ウィンドウが開く
- Median Joining ウィンドウでFile > Openで.rdfファイルを再び開く
- 計算ウィンドウで【Calculate network】 をクリックすると計算が開始され,.out ファイルが出力される
メインウィンドウのDraw networkでDraw Networkウィンドウを表示させ,File > Openで.out ファイルを開く
- OK > Yes > Continue > Finalise でハプロタイプネットワークが出てくる
- 最初はなにこれ?!というくらいにこんがらがっているのでこれを解きほぐしていく
- このブログを書くにあたってユーザーガイド(Network10200_user_guide.PDF (fluxus-engineering.com))を読みかえしていて気がついたのですが、「In phylogenetics, the network nodes are living or extinct sequences with specific mutations. Descendants of a node can be grouped into a cluster or branch, also known as a clade (greek klados, branch). When the number of characters (loci) under consideration is extended, the sequence may be differentiated into sub-sequences, and the branches become longer.」とあるので枝長は最初に表示されたものからあまり変えないほうがいいのかもしれないです
- しかし、どのみち枝長が完全に正確な遺伝的距離を反映しているわけではないので、大幅に変えないようにしつつ見やすいように図をほぐしていく必要はあると思います
- 正解はわたしにもわかりません(ごめんなさい)
- 解きほぐし終わったらハプロタイプを色分けする
完成図を公開したいところなのですが、論文化前なので一応控えておきます。論文出たら足します。
いつになるやら…。