研究メモブログの目次

【SNP 解析】vcf ファイルのフィルタリング by Tassel

www.maizegenetics.net

【お詫び】現在アップデート版が出ているようなのですが、いまアップデートしてエラーが出ると大変なことになるので、自分が10 月にダウンロードしたTassel5 についての説明を書きます。ごめんなさい。

 

 

このソフトウェアはかなり多機能なのですが、自分が使った部分だけ説明していきます。

Tassel はインターフェース付きのソフトウェアなので、いつも通りサイトからインストールし、アプリを開きます。

 

1.Data>sort genotype file>vcf でvcf ファイルに名前を付けて保存し直す

そのままFile>open で開けるvcf ファイルもたまにありますが、基本的にはsort しないとダメっぽいです。

今回はpopulations.snp-sorted.vcf として保存しています。

f:id:nemunemu_nyanko:20210222143047p:plain

OK でファイルが生成されます。

 

2.この新しく生成されたファイルをFile>Open as>vcf で開く

f:id:nemunemu_nyanko:20210222143431p:plain

縦軸は個体ID、横軸は「(何番目のスキャホールドか):(何番目の塩基か)」

3.Filter>Sites

f:id:nemunemu_nyanko:20210222143557p:plain

  1. Minimum Count:このラインより多い個体が持つSNP を残す、という最低ライン。今回は2個体以上が持つSNP を残すため、2に設定。
  2. Minimum Frequency マイナーSNP を何%まで持つか。

細かい説明はTassel source wikihttps://bitbucket.org/tasseladmin/tassel-5-source/wiki/UserManual/FilterMenu/FilterMenu)で確認

 

4.Filter>Taxa>Minimum proportion of sites present

f:id:nemunemu_nyanko:20210222143954p:plain

SNP のうち何割を持っている個体を残すか。今回は0.8 に設定。

 

5.File>sava.as>vcf として保存

 

これでフィルタリングはおしまい。

正直、stacks のvcf を使った場合、populations の段階で相当フィルタリングかけているので、ほとんど個体数は変わらないと思います。