Tugas T1
Sampul
Front Cover

Back Cover

Bab 1
1 Pendahuluan
1.1 Latar Belakang
Buku ini adalah buku yang membahas tentang korelasi
matriks heatmap, buku ini penulis dedikasikan untuk memberikan sebuah
penyampaian materi yang berbeda, dari materi buku – buku lainnya. Tujuan dari
heatmap matriks korelasi adalah sebuah peta yang menggambarkan persebaran
lokasi dan frekuensi data dalam dengan pewarnaan. Sedangkan yang lebih dibahas
dalam buku ini adalah lebih mengerucut tentang korelasi matriks heatmap.
Matriks korelasi adalah suatu matriks yang di dalamnya
terdapat korelasi – korelasi. korelasi addalah study yang membahas tentang
drajat hubungan antara dua variable atau lebih. Korelasi merupakan salah satu
teknik statistika yang banyak digunakan oleh peneliti umumnya tertarik terhadap
pristtiwa-pristiwa yang terjadi dan mencoba menghubungkanya Heatmap adalah
Sebuah peta panas adalah representasi grafis dari data di mana nilai-nilai
individu yang terkandung dalam matriks yang direpresentasikan sebagai warna .
1.2 Rumusan Masalah
Buku ini disusun dengan tujuan :
1. Memahami
bagaimana konsep dasar heatmap
2. Menambah
pengetahuan mengenai heat map
3. Memahami
penggunaan software yang digunakan
4. Sebagai
tugas kelompok mata kuliah softskill
1.3 Tujuan Penulisan
1. Bagaimana
konsep dasar heatmap?
2. Apa saja
yang ada dalam heatmap?
3. Bagaimana
menggunakan aplikasi Qlucore Omics Explorer ?
Bab 2
2 Landasan Teori
2.1 Definisi Heatmap
Apa itu heatmap? Heatmap adalah sebuah peta yang
menggambarkan persebaran lokasi dan frekuensi data dalam dengan pewarnaan.
Heatmap adalah representasi grafis dari data di mana nilai-nilai individu yang
terkandung dalam matriks yang direpresentasikan sebagai warna. Peta fraktal dan
peta pohon baik sering menggunakan sistem serupa warna-coding untuk mewakili
nilai-nilai yang diambil oleh variabel dalam hirarki. Istilah ini juga
digunakan untuk berarti aplikasi tematik sebagai peta choropleth.
2.2 Sejarah Heatmap
Istilah "Heatmap" pada awalnya diciptakan
dan merek dagang oleh software desainer Cormac Kinney pada tahun 1991, untuk
menggambarkan tampilan 2D menggambarkan real time informasi pasar keuangan.
Heatmap berasal menampilkan 2D dari nilai-nilai dalam
matriks data. nilai yang lebih besar diwakili oleh kotak kecil abu-abu gelap
atau hitam (piksel) dan nilai-nilai yang lebih kecil dengan kotak ringan.
Sneath (1957) ditampilkan hasil analisis cluster dengan permutasi baris dan
kolom dari matriks untuk menempatkan nilai yang sama dekat satu sama lain
sesuai dengan clustering. Jacques Bertin digunakan representasi yang sama untuk
menampilkan data yang sesuai untuk skala Guttman. Ide untuk bergabung pohon
cluster untuk baris dan kolom dari matriks data yang berasal Robert Ling pada
tahun 1973. Ling digunakan karakter printer telak untuk mewakili berbagai
nuansa abu-abu, satu karakter-lebar per pixel. Leland Wilkinson mengembangkan
program komputer pertama pada tahun 1994 (SYSTAT) untuk menghasilkan peta panas
cluster dengan grafis warna resolusi tinggi. The Eisen et al. display yang
ditunjukkan pada gambar adalah replikasi dari sebelumnya SYSTAT desain.
Pada tahun 1993, dengan Carnegie Mellon Senior
Research Scientist, Marc H. Graham, Kinney didirikan NeoVision Hypersystems,
Inc. untuk mengembangkan dan memasarkan teknologi heatmaps. NeoVision heatmaps
adalah waktu middleware nyata dan platform komputasi dengan antarmuka visual
warna-warni sekarang-akrab. Dengan platform heatmaps, perdagangan khusus,
manajemen risiko dan broker pemantauan aplikasi yang dibangun,
mengkonsolidasikan sejumlah besar real time dan data statis.
Setelah lisensi teknologi untuk meja perdagangan di
Merrill Lynch, Citibank, Salomon Brothers dan Morgan Stanley, dan 9 departemen
di Deutsche Bank, ia mengangkat total $ 8 juta dari Deutsche Bank, Bear
Stearns, Intel Corporation dan investor modal ventura.
Dengan modal segar, Kinney disewa Brian Barefoot,
Presiden PaineWebber International, dan kepala sebelumnya global penjualan dan
perdagangan di Merrill Lynch sebagai CEO, menambahkan Deutsche Bank Global COO
ke papan NeoVision ini, dan terus memperluas peluncuran heatmaps banyak buy
besar dan menjual lembaga keuangan sisi, termasuk Bank of America, PaineWebber,
Bear Stearns, Merrill Lynch, Smith Barney dan 13 broker lainnya, JPMorgan
Chase, Fidelity dan DTC , untuk memantau sampai $ 1,7 triliun pada transaksi
harian. Setelah NeoVision, Barefoot menjadi Presiden Babson College selama
tujuh tahun.
lisensi distribusi yang signifikan dibuat dengan
Bloomberg LP, Dow Jones Telerate, Thomson, dan Reuters untuk lisensi heatmaps
ke lebih dari 300.000 desktop. The Nasdaq adalah yang pertama untuk lisensi
versi web, webHeatmaps, yang telah disertakan pada halaman depan www.nasdaq.com
sejak tahun 2001 sampai 2013, dengan sekitar 2,4 juta tampilan halaman setiap
hari.
Pada tahun 2002, ia merancang biaya perdagangan sistem
analisis untuk Fidelity Investments - dikutip oleh The Wall Street Journal
sebagai "sistem pelacakan canggih untuk melihat mana broker dapat
melakukan perdagangan yang paling efisien," yang dikreditkan, sebagian,
dengan mengurangi reksadana biaya perdagangan perusahaan dengan ratusan juta
dolar per tahun, setengah rata-rata industri. Sistem ini, Brokermaps, kemudian
dipasang di Bank of America Manajemen Investasi, Invesco, Janus, Merrill Lynch
Investment Management dan Putnam Investments.
Pada Juli 2013, sejak tahun 1993, heatmaps telah
dikutip di lebih dari 350 paten yang diberikan oleh PTO AS, dan di puluhan peer
review makalah penelitian.
Setelah direncanakan IPO $ 30.000.000 jatuh karena com
kecelakaan dot, NeoVision diakuisisi pada tahun 2003 oleh software keuangan
konglomerat SS & C Technologies. Hari ini teknologi NeoVision dimasukkan ke
dalam beberapa SS & C produk.
2.3 Tipe Heatmap
Ada berbagai jenis heatmap:
·
Heat map telah digunakan untuk menampilkan area dari
halaman web yang paling sering dipindai oleh pengunjung. Heatmaps web yang
sering digunakan bersama bentuk-bentuk lain dari analisis web dan alat sesi
replay.
·
Peta biologi panas biasanya digunakan dalam biologi
molekuler untuk mewakili tingkat ekspresi banyak gen di sejumlah sampel
sebanding (misalnya sel di negara-negara yang berbeda, sampel dari pasien yang
berbeda) karena mereka diperoleh dari DNA microarray.
·
Tree map adalah partisi hirarkis 2D dari data yang
secara visual menyerupai peta panas.
·
Sebuah plot mosaik adalah heatmap untuk mewakili dua
arah atau lebih dataran tinggi-cara tabel data. Seperti treemaps, daerah
persegi panjang dalam plot mosaik yang hirarki terorganisir. Sarana bahwa
daerah yang persegi panjang bukannya kotak. Friendly (1994) survei sejarah dan
penggunaan grafik ini.
2.4 Skema Warna
Ada banyak skema warna yang berbeda yang dapat
digunakan untuk menggambarkan heatmap, dengan keuntungan persepsi dan kerugian
untuk setiap. Rainbow colormaps sering digunakan, agar manusia dapat merasakan
nuansa lebih warna dari yang mereka dapat dari abu-abu, dan ini nantinya akan
meningkatkan jumlah detail dipahami dalam gambar. Namun, ini tidak disarankan
oleh banyak dalam komunitas ilmiah, dengan alasan sebagai berikut:
1. Warna
kekurangan memesan persepsi alami yang ditemukan dalam grayscale atau hitam
colormaps spektrum.
2. Colormaps
umum (seperti "jet" colormap digunakan sebagai default di banyak
paket perangkat lunak visualisasi) memiliki perubahan yang tidak terkendali di
luminance yang mencegah konversi berarti untuk grayscale untuk tampilan atau
pencetakan. Ini juga mengalihkan perhatian dari data aktual, sewenang-wenang
membuat daerah kuning dan cyan tampil lebih menonjol dari pada daerah data yang
sebenarnya paling penting.
3. Perubahan
antara warna juga menyebabkan persepsi gradien yang tidak benar-benar hadir,
membuat gradien yang sebenarnya kurang menonjol, yang berarti bahwa colormaps
pelangi dapat rinci sebenarnya jelas dalam banyak kasus daripada meningkatkan
itu.
2.5 Cluster Heatmap
Cluster Heatmap atau Peta klaster panas adalah kotak
atau persegi panjang dari matriks data dengan pohon klaster ditambahkan ke
margin-nya. Dalam area tampilan yang relatif kompak, memfasilitasi pemeriksaan
baris, kolom, dan struktur cluster bersama. Matriks data yang cukup besar
(beberapa ribu baris / kolom) dapat ditampilkan secara efektif pada warna
monitor resolusi tinggi dan matriks yang lebih besar dapat ditangani di media
cetak atau di display megapiksel.
Peta klaster panas terkenal dalam ilmu alam dan salah
satu grafik yang paling banyak digunakan dalam ilmu biologi. Sebagai Weinstein
(2008) menyebutkan:
·
Untuk visualisasi, sejauh ini representasi grafis yang
paling populer telah heatmap berkerumun, yang compacts sejumlah besar informasi
ke dalam sebuah ruang kecil untuk membawa keluar pola yang koheren dalam data.
... Sejak debut mereka lebih dari 10 tahun yang lalu, peta berkerumun panas
telah muncul di lebih dari 4000 publikasi biologis atau biomedis.
Weinstein menggambarkan peta panas sebagai berikut:
·
Dalam kasus ekspresi gen data, warna ditugaskan ke
titik di peta panas jaringan menunjukkan berapa banyak dari RNA tertentu atau
protein dinyatakan dalam sampel yang diberikan. Ekspresi gen Tingkat umumnya
ditandai dengan warna merah untuk ekspresi tinggi dan baik hijau atau biru
untuk ekspresi yang rendah. Pola koheren (patch) dari warna yang dihasilkan
oleh pengelompokan hirarki pada kedua horisontal dan vertikal sumbu untuk
membawa seperti bersama-sama dengan seperti. Hubungan Cluster ditandai dengan
pohon-seperti struktur berdekatan dengan peta panas, dan patch warna dapat
menunjukkan hubungan fungsional antara gen dan sampel.
Gambar 1 menunjukkan peta panas khas seperti yang
dijelaskan oleh Weinstein. Yang paling populer bioinformatika perangkat lunak
untuk memproduksi grafis ini didokumentasikan dalam Eisen et al. (1998). The
Eisen kertas, yang menggambarkan sebuah cluster panas peta Program, adalah
artikel yang paling dikutip ketiga di PNAS pada tanggal 1 Juli, 2008 (PNAS
2008). The "Debut" Weinstein mengacu mungkin adalah debut dalam
literatur biologi, tapi jelas tidak debut dalam literatur statistik. Komponen
layar ini memiliki sejarah panjang dalam grafik statistik. Itu referensi biologi
memberikan sedikit indikasi latar belakang untuk ide-ide yang mendasari
diperlukan untuk membangun peta panas. Pada artikel ini, kita menelusuri garis
keturunan dari peta panas dan menunjukkan apa elemen yang akhirnya terintegrasi
dalam tampilan yang ahli biologi akhirnya diadopsi.
Untuk menjelaskan sejarah layar ini, kami akan
menyajikan masing-masing komponen yang mendasari desain peta klaster panas.
Beberapa yang cukup lama, beberapa yang relatif baru.
2.5.1 Shading Matriks
·
Pusat peta panas adalah matriks layar warna teduh.
Berbayang menampilkan matriks yang lebih dari satu abad tua. Gambar 2
menunjukkan contoh dari Loua (1873). Grafis ini merangkum berbagai statistik
sosial di seluruh arondisemen Paris. Seperti grafis lainnya dalam buku ini, itu
digambar tangan dan berwarna. Shading tabel atau matriks adalah perangkat lama
untuk menyoroti entri, baris, atau kolom. Akuntan, desainer grafis, insinyur
komputer, dan lain-lain telah menggunakan metode ini selama bertahun-tahun.
Yang paling umum baru-baru ini aplikasi melibatkan penggunaan warna untuk baris
warna, kolom, atau sel-sel dari spreadsheet.
2.5.2 Permuting Matriks
·
Peta klaster panas tidak lebih dari warna. Ini
permutes baris dan kolom dari matriks untuk mengungkapkan struktur. Permutasi matriks
memiliki sejarah panjang juga. Seperti ide shading, menyortir matriks atau
tabel untuk mengungkapkan struktur adalah lebih dari satu abad tua. Gambar 3
menunjukkan matriks diurutkan data pendidikan dari Brinton (1914). Gambar 4
menunjukkan contoh dari Bertin (1967). Jacques Bertin dikhususkan bab untuk
menggambarkan kegunaan apa yang disebut matriks reorderable. Contoh nya
diurutkan dengan tangan.
Seriation
·
Itu adalah antropolog yang mengembangkan salah satu
model pertama untuk memesan matriks data. Petrie (1899) berusaha untuk mengatur
ulang baris dan kolom dari matriks persegi panjang dari pengukuran pada
antropologi artefak sehingga nilai terbesar akan dekat diagonal utama. Tujuan
langsungnya adalah menggunakan atribut (kolom) untuk cerita artefak (baris)
dalam rangka memulihkan memesan temporal di artefak. Tujuannya memiliki
implikasi baik di luar materi pelajaran nya. Petrie telah mengidentifikasi
struktur Toeplitz tersirat dalam pemesanan matriks data berdasarkan waktu (atau
beberapa dimensi lain). Artikelnya yang dihasilkan banyak literatur
Figure 8:
Gambar 4: permutasi layar matriks dari Bertin (1967).
Angka ini dirancang untuk menggambarkan kemungkinan menyortir matriks untuk
mengungkapkan struktur blok-diagonal
selama lebih dari satu abad pada topik bervariasi
disebut seriation atau matriks penataan kembali (Robinson 1951; Kendall 1963;
McCormick et al. 1972; Hubert 1974, 1976; Lenstra 1974; Ramah 2002; Ramah dan
Kwan 2003; Climer dan Zhang 2006). Sepuluh tahun setelah Petrie, Jan Czekanowski
mengembangkan metode seriation dan menggunakan Dialog berbayang gram untuk
mewakili struktur data blok-diagonal. Gambar 5 menunjukkan matriks diurutkan
data pendidikan dari Czekanowski (1909). Display Czekanowski, kecuali kurangnya
pewarnaan dan pohon klaster ditambahkan, adalah mirip dengan output dari
program penataan kembali matriks komputer kontemporer (Liiv 2008)
Guttman Scalogram
·
Lima puluh tahun setelah Petrie, Louis Guttman
memperkenalkan permutasi matriks untuk mengungkapkan yang berbeda satu dimensi
struktur. The Guttman Scalogram (Guttman 1950) adalah metode langsung untuk pas
model deterministik (a total order yang Guttman disebut Simplex) untuk matriks
biner. Dalam metode Guttman, biner persegi panjang matriks itu permutasi dengan
tangan (menggunakan kertas atau mesin tabulasi) untuk mendekati skala
unidimensional: di bawah kuasi-diagonal yang menjadi sebanyak 1 sebagai mungkin
dan atas kuasi-diagonal, sebanyak 0 sebagai mungkin. Sebuah matriks dengan
struktur ini dikatakan scalable, menyiratkan pemesanan baris dan kolom. The
Scalogram menemukan aplikasi luas dalam dekade berikutnya, terutama dalam
ilmu-ilmu sosial. Ara- ure 6 menunjukkan contoh dari Rondinelli (1980). Program
komputer akhirnya otomatis skala ini (Nie et al. 1970; Wilkinson 1979). Lainnya
akhirnya mengembangkan program analisis visual interaktif untuk memungkinkan
pengguna untuk mengeksplorasi permutasi mereka sendiri (Siirtola dan Makinen
2005). Dan statistik dikembangkan stochastic generalisasi model Guttman yang
memungkinkan permutasi ini untuk diterapkan lebih luas (Goodman 1975; Andrich
1978).
Clustering hirarkis
·
Tidak lama setelah Scalogram Guttman menjadi populer,
analis klaster mengambil minat dalam mewakili kelompok oleh asosiasi shading
(kesamaan / ketidaksamaan) matriks. Sneath (1957) mungkin merupakan advokat
awal untuk grafis ini. Ling (1973) memperkenalkan program komputer, yang
disebut SHADE, untuk menerapkan ide Sneath ini. Ling Program digunakan
overstrikes pada printer karakter untuk mewakili derajat yang berbeda dari
bayangan. Gower dan Digby (1981) dilaksanakan tampilan Ling pada printer dot
matrix. Gambar 7 menunjukkan contoh dari bab mereka.
Dua arah Clustering
·
Tak lama setelah kertas Ling, Hartigan (1974)
memperkenalkan program pengelompokan blok dengan layar langsung dari persegi
panjang matriks data. Teori di balik program ini telah dibahas di Hartigan
(1975).
Kerja Hartigan ini, Wilkinson (1984) menerapkan dua
arah pengelompokan hirarki rutin pada persegi panjang matriks data, menggunakan
metode shading Ling untuk layar.
Seriating a Binary Tree
·
Untuk pohon biner dengan daun n, ada 2 -n 1 orderings
linear yang mungkin dari daun dalam tata letak planar pohon. Algoritma
clustering hirarki tidak menentukan tata letak tertentu. Oleh karena itu, kita
perlu algoritma tambahan untuk Seriate baris / kolom dari matriks berkerumun.
Gruvaeus dan WAINER (1972) mengembangkan algoritma serakah yang Wilkinson
digunakan di layar SYSTAT. Gale et al. (1984) menyusun algoritma alternatif
untuk tujuan ini. Makalah yang lebih baru membahas masalah ini secara rinci dan
menentukan algoritma optimasi dengan fungsi obyektif yang dirancang untuk tugas
(Wishart 1997; Bar-joseph dkk. 2003; Morris et al. 2003). Aspek yang diinginkan
dari algoritma ini adalah bahwa mereka menghasilkan total order ketika ada
(misalnya, ketika matriks asosiasi memiliki bentuk Toeplitz).
Appending Trees
·
Masih ada isu menambahkan pohon cluster untuk data
matriks persegi panjang. Kita telah melihat contoh-contoh yang menambahkan
sebuah pohon clustering untuk matriks asosiasi. Gower dan Digby (1981)
mengambil langkah berikutnya dan ditambahkan pohon cluster untuk kedua baris
dan kolom matriks asosiasi. Gambar 8 menunjukkan template mereka. Mereka tata
letak dalam beberapa hal lebih unggul peta microarray panas modern, karena
bersamaan menampilkan baris dan kolom kesamaan / perbedaan-perbedaan yang
clustering didasarkan. Chen (2002) dan lain-lain yang diadopsi desain ini. Ini
adalah langkah singkat dari desain ini untuk tata letak yang dipilih oleh para
ahli biologi. Pertama peta panas diterbitkan dalam bentuk ini muncul di
Wilkinson (1994). Gambar 9 menunjukkan versi warna angka dari SYSTAT manual.
Pada saat Eisen et al. (1998) muncul, ada puluhan ribu eksemplar SYSTAT beredar
di komunitas ilmiah.
Weinstein (2008) menemukan membangun klaster panas
memetakan sebuah "proses mengejutkan halus." Deskripsinya kehalusan
ini tidak akan mengejutkan ahli statistik. Mereka yang akrab dengan literatur
klaster tahu bahwa ada literatur.
Isu-isu mengenai pilihan ukuran jarak (Euclidean,
tertimbang Euclidean, City Block, dll) dan pilihan metode linkage (tunggal,
lengkap, rata-rata, pusat massa, Ward, dll). Kettenring (2006) membahas masalah
ini dalam praktek. Selain itu, Weinstein menyebutkan masalah memesan daun
clustering pohon, menunjukkan bahwa "beberapa tujuan (tapi, untuk gelar,
sewenang-wenang) aturan harus dipanggil untuk memutuskan mana cara
masing-masing cabang akan, pada kenyataannya, ayunan "Seperti yang telah
kami sebutkan, ini bukan tujuan yang sewenang-wenang.; itu a-didefinisikan
dengan baik masalah seriation. Paket statistik modern menerapkan tampilan peta
panas sebagai bagian dari paket pengelompokan (misalnya, JMP dan SYSTAT) atau
mereka membuatnya mudah untuk merencanakan peta panas menggunakan algoritma seriation
(misalnya, R dan Stata).
Dengan demikian, semua pilihan yang tersedia untuk
pengelompokan atau analisis lainnya renderable di peta panas. Ini arsitektur
fleksibel menggarisbawahi fakta bahwa peta panas adalah refleksi visual model
statistik. ini bukan pemesanan sewenang-wenang baris dan kolom klaster pohon.
Secara umum, peta matriks panas dapat dianggap sebagai display yang baris dan
kolom telah permutasi melalui algoritma. Banyak referensi baru-baru ini dikutip
dalam artikel ini menyebutkan eksplisit fungsi tujuan untuk mengevaluasi
permutasi yang dihasilkan. Fungsi kerugian seriation populer adalah jumlah dari
jarak antara baris dan kolom yang berdekatan. Kita dapat meminimalkan fungsi
ini langsung pada dataset yang diberikan atau menggunakannya untuk mengevaluasi
kebaikan dari seriation heuristik tertentu. Atau, kita dapat mencicipi nilai
dari distribusi bivariat diketahui, mengacak baris dan kolom dalam matriks data
sampel, dan membandingkan solusi dari algoritma seriation berbeda.
Wilkinson (2005) yang dihasilkan matriks persegi
panjang yang baris dan kolom covariances ditentukan oleh lima berbeda struktur
kovarians: Toeplitz, Band, Edaran, Equicovariance, dan Blok diagonal. Dia
kemudian secara acak baris dan kolom permutasi sebelum menerapkan beberapa
algoritma seriation yang berbeda, termasuk clustering, MDS, dan SVD. Secara
keseluruhan, SVD pulih pemesanan asli lebih baik daripada metode lain yang
digunakan pada semua lima jenis matriks. Temuan ini menunjukkan bahwa SVD
sederhana mungkin yang terbaik metode seriation umum dan klaster yang metode
harus dibatasi kepada mereka dataset mana model cluster yang sesuai. Jika SVD
yang dipilih, maka salah satu harus mempertimbangkan metode yang kuat terakhir
untuk dekomposisi ini (Liu et al. 2003). Untuk data microarray, itu masih
merupakan pertanyaan terbuka apakah seriation berbasis hirarkis-clustering
lebih berguna daripada pendekatan lain, meskipun popularitas dari metode ini.
Tugas T2
Bab 3
1 Aplikasi pendukung Heatmap
1.1 Qlucore Omics Explorer
1.1.1 Apa itu Qlucore Omics Explorer?
Qlucore adalah sebuah perusahaan dari Lund, Swedia,
yang menyediakan software bioinformatika untuk industri ilmu kehidupan dan
biotek. Para pendiri adalah Thoas Fioretos, profesor dan konsultan senior di
Divisi Genetika Klinis di Rumah Sakit Universitas Lund, Johan Rade, profesor
matematika di Universitas Lund, Magnus Fontes, guru besar matematika di
Universitas Lund dan presiden Qlucore Carl-Johan Ivarsson. Saat ini, produk
Qlucore digunakan di 23 negara. Produk utama perusahaan, Qlucore omics
Explorer, menggabungkan metode statistik dengan real time visualisasi dan antarmuka
pengguna yang intuitif, sehingga memudahkan para ilmuwan biomedis untuk
menganalisis data mereka sendiri, atau bersama-sama dengan spesialis
bioinformatika. Mesin perangkat lunak inti visualisasi data 3D serta 2D dan
karena itu dapat membantu pengguna untuk mengidentifikasi struktur dan pola
tersembunyi. Kombinasi visualisasi, metode statistik canggih dan klik dan titik
user interface yang mudah digunakan telah membantu banyak ilmuwan dengan
penelitian mereka.
Perangkat lunak Qlucore omics Explorer dapat digunakan
untuk menganalisis data set seperti:
·
ekspresi gen: RNA-seq, microarray, real-time PCR
·
MicroRNA: microarray, real-time PCR
·
DNA metilasi: microarray
·
ekspresi protein: microarray, array antibodi, 2-D gel
·
proteomik
·
Data metabolomik
·
Setiap data multivariat ukuran sampai dengan 1000 x
100.000
1.1.2 Tutorial menggunakan Qlucore Omics Explorer
(QOE)
·
Untuk memulai QOE, klik dua kali ikon Qlucore omics
Explorer (shortcut) pada desktop atau mulai Qlucore omics Explorer dari Menu
Program ditemukan di Start Menu.
·
The QOE Jendela Utama akan muncul. Kita mulai dengan
orientasi yang cepat dari apa yang Anda lihat pada layar, lihat gambar di
bawah. Di tengah-tengah Anda menemukan Ruang Kerja di mana semua plot akan
ditampilkan di Plot Windows. Selanjutnya Anda menemukan beberapa Dock Windows.
Secara default Sampel, Variabel dan Log dermaga jendela merapat ke kiri jendela
utama dan Statistik dan Mendapatkan jendela Memulai mengambang.
·
Di Menu Bar Anda dapat memilih dermaga jendela yang
ditampilkan di bawah View> Dock Windows. Dari menu View Anda juga dapat
meluncurkan GO Browser dan GSEA Workbench serta Quality Control (QC) laporan.
Di bawah Menu bar Anda menemukan kontrol yang berbeda yang mengatur fungsi alat
mouse dan operasi dilakukan pada kumpulan data. Anda juga menemukan tujuh Tab
yang berbeda: Data, Metode, Options, Lihat, Cluster, Membangun classifier dan
Classify, yang akan membantu Anda untuk memilih dan mengelola alur kerja di
QOE.
·
Di tepi jendela Statistik Anda dapat memilih metode
statistik yang Anda ingin gunakan untuk mempelajari dataset Anda.
Akhirnya di bagian bawah Anda menemukan Status Bar.
Dalam Status Bar Anda menemukan misalnya jumlah total sampel dan variabel dalam
set data ditampilkan dan informasi di berapa banyak dari mereka yang secara
aktif mengambil bagian dalam analisis pada saat ini.
Untuk memulai, kita pertama-tama mengembalikan
pengaturan default.
·
Pilih File> Kembalikan Pengaturan Default item menu
di Menu Bar
·
Pilih OK, ketika Anda akan ditanya apakah Anda ingin
mengembalikan pengaturan default
Perhatikan bahwa ketika nanti keluar QOE pengaturan
saat ini akan disimpan dan digunakan berikutnya kali program dimulai dan Anda
dapat dengan demikian secara langsung mulai bekerja dengan pengaturan yang
terbaik sesuai data Anda.
Untuk membuka file data.
·
Buka menu Help> Contoh File> Qlucore Data Uji
Set.gedata
The Qlucore Test Data Set sekarang terbuka di QOE dan
Anda memiliki posisi awal untuk mulai menganalisis data.
Apa yang Anda lihat saat ini di Ruang Kerja adalah
proyeksi komponen utama dari 12 sampel dari 50 dimensi (sesuai dengan 50
pengukuran (variabel) untuk masing-masing sampel) turun ke ruang tiga dimensi
yang direntang oleh tiga pokok pertama komponen. Sampel berwarna sesuai dengan
sampel ID penjelasan seperti dapat terlihat di jendela Color Legend.
Figure 1:
Ke kiri, jendela Sampel dipilih secara default. Di
sini Anda dapat melihat dan memanipulasi informasi yang terhubung ke sampel
Anda. Sejalan dengan itu, Anda akan menemukan informasi berkaitan dengan
variabel dengan memilih jendela Variable. Dengan memilih jendela Log Anda akan
dapat membuat Log alur kerja Anda di QOE. Pada jendela Color Legenda Anda
menemukan semua informasi yang relevan, dalam bentuk yang mudah untuk ekspor,
mengenai pewarnaan sampel atau variabel. Anda dapat memilih untuk menutup
dermaga jendela Color Legenda agar untuk mendapatkan ruang kerja yang lebih.
Di atas Work Sheet dan di bawah menu bar Anda
menemukan kontrol yang berbeda mengandung perintah untuk beberapa fungsi dasar.
Di antara mereka adalah Data, Metode, Pilihan dan View tab. Data tab memiliki
kontrol yang berhubungan dengan bagaimana data dipersiapkan untuk analisis masa
depan dan tab View berisi kontrol yang berhubungan dengan bagaimana data
disajikan. Metode tab dipilih secara default dan di sana Anda menemukan kontrol
yang berhubungan dengan analisis. Tab Options meliputi perbaikan dan penambahan
metode yang tersedia di Metode tab. Anda memilih jenis petak di tab Metode
(Contoh PCA dipilih oleh default). Anda juga memilih cara menormalkan / skala
data Anda di sini dan untuk membuat grafik / jaringan. Tab Cluster mengontrol
penciptaan otomatis dari cluster. Tab Build classifier meliputi fungsi untuk
membangun pengklasifikasi. The Mengklasifikasikan tab memungkinkan klasifikasi
sampel berdasarkan classifier a.
Figure 2:
Ada beberapa jenis plot yang berbeda tersedia di QOE
dan adalah mungkin untuk mengkonfigurasi plot dalam berbagai cara. Ada delapan
jenis plot utama dan Anda memilih jenis petak di Metode tab.
·
PCA
·
Heatmap (Heat)
·
Scatter
·
Table
·
Line
·
Box
·
Bar
·
Histogram
Beberapa plot dapat dikonfigurasi untuk menunjukkan
baik sampel atau variabel. ini adalah dipilih menggunakan tombol mode di tab
Metode. Dalam Tebar, Box, Line, Bar dan Histogram pilihan lebih lanjut tentang
apa yang harus plot dibuat menggunakan alat Seleksi Axis data.
QOE memungkinkan tingkat fleksibilitas yang tinggi
dalam jumlah plot dan dataset yang Anda bisa buka secara paralel. Ketika banyak
plot terbuka plot yang terakhir diaktifkan oleh kiri klik dengan Mouse disebut
plot aktif. Operasi yang dipilih biasanya akan mempengaruhi plot aktif.
Statistik jendela yang penting dan Anda memiliki
kebebasan untuk posisi jendela ini dimanapun Anda inginkan di layar Anda. Kami
kemudian akan menjelaskan beberapa fungsi jendela Statistik
·
Pindahkan jendela Statistik untuk melihat dengan jelas
sampel ditampilkan.
Sebelum kita melanjutkan kita akan membiasakan diri
dengan struktur dasar dari Qlucore Uji Data Set. Sebuah subset dari kumpulan
data disajikan dalam tabel di bawah. Kumpulan data termasuk 50 variabel yang
diukur untuk 12 sampel.
Figure 3:
·
Lima baris pertama adalah penjelasan sampel dan yang
pertama tiga kolom adalah penjelasan variabel.
Data matriks dimulai dengan sel dengan nilai
"0,071".
Sekarang, mari kita lanjutkan. Semua perintah yang
diberikan di QOE segera mempengaruhi proyeksi ditampilkan di Plot Windows.
·
Pilih tab View
·
Pada bagian Warna tab View, pilih untuk warna sampel
Anda sesuai dengan penjelasan "Treatment".
Figure 4:
Ini akan mewarnai aktif PCA plot contoh. Pada tab View
ada lebih banyak mewarnai Pilihan dan pilihan akan berubah tergantung pada
jenis plot yang aktif. Dalam tutorial kita akan menyebutkan beberapa pilihan
warna tapi jangan ragu untuk mencoba milikmu.
·
Dalam Tool Box Anda memilih fungsi mouse (Move tombol
radio di sudut kiri atas diperiksa secara default).
Ketika Move dipilih, Anda dapat memutar gambar dengan
menekan kiri mouse tombol dan drag gambar dengan mouse di Ruang Kerja
·
Pilih Pusat di Tool Box dan kemudian klik kiri pada
sampel di plot. The sampel yang dipilih kemudian ditempatkan di pusat Plot
Window
Figure 5:
Dengan mengklik kiri sampel lain, sampel ini akan
ditempatkan di tengah sebaliknya. Oleh mengklik Batal di Tool Box plot aslinya
dikembalikan.
Figure 6:
Clear dan Multi dua kontrol yang mempengaruhi
penggunaan alat mouse yang dipilih. Yang jelas akan menghapus semua tanda dan
label yang dipilih dan Multi akan memungkinkan Anda untuk membuat beberapa
Pilihan.
·
Pilih Move.
Di sudut kiri bawah dari jendela utama Anda menemukan
Status Bar. Di sini Anda melihat teks 12/12 Sampel, menunjukkan bahwa semua
sampel yang tersedia saat ini dipertimbangkan dalam alur kerja, masing-masing
dari mereka sesuai dengan salah satu dari 12 bulatan kecil yang Anda lihat
diplot di layar.
·
Pilih Info di Tool Box dan kemudian klik kiri pada
sampel.
1.1.3 Analisis statistik dengan Visual Feedback
Pada bagian ini kita akan terus bekerja dengan hanya
satu petak aktif dan itu akan menjadi heatmap.
Kami akan melakukan uji statistik dan memvisualisasikan
hasilnya secara bersamaan. Kita akan menggunakan heatmap untuk menghasilkan
umpan balik visual. Kita bisa bekerja dengan jenis rencana tapi untuk alasan
pedagogik kami memperkenalkan jenis plot baru. Pilih Heat di tab Metode.
Anda akan langsung mendapatkan plot di bawah ini.
Figure 7:
Catatan: bagian putih dari heatmap menunjukkan
nilai-nilai yang telah direkonstruksi menggunakan rekonstruksi nilai yang
hilang. Pada tab Data metode untuk nilai yang hilang rekonstruksi dapat
dipilih. Silahkan lihat manual Referensi untuk lebih jelasnya tentang hilang
nilai-nilai.
Anda pilih Normalisasi dalam kotak Normalisasi pada
tab Metode. Standarnya adalah untuk menyajikan data dinormalisasi.
Pertama kita meningkatkan plot dengan menambahkan
elemen visual tambahan.
·
Pilih Warna Sampel di tab View dan kemudian warna
dengan anotasi "Treatment".
·
Kemudian pilih Orde Sampel di tab View dan pilih
"Hierarchical clustering"
Figure 8:
Ada empat algoritma yang berbeda (Linkage) bahwa Anda
akan menemukan di Options tab untuk menghasilkan cluster (mean, rata-rata
tertimbang, minimum dan maksimum linkage). Kami mengacu pada referensi manual
untuk informasi lebih lanjut tentang ini dan informasi terkait di heatmaps dan
clustering. Clustering dapat didasarkan baik pada:
·
Kovarian (yaitu menggunakan data dinormalisasi berarti
0 untuk setiap variabel), atau
·
Korelasi (yaitu menggunakan data dinormalisasi berarti
0 dan varians 1 untuk setiap variabel).
1.1.4 Menggunakan Jaringan dan Grafik
Anda dapat dengan mudah membuat grafik di QOE
menghubungkan sampel atau variabel. ketika membuat grafik jarak yang terlibat
selalu jarak Euclidean dalam ruang penuh semua sampel aktif atau variabel.
Grafik memberi Anda kesempatan untuk, dalam arti, melihat ke dalam dimensi yang
lebih tinggi . 12 Menggunakan Jaringan textbox di tab Cara Anda dapat membuat
grafik / jaringan dalam berbagai cara.
Figure 9:
·
Hapus tanda centang pada Axes kotak centang di Plot
Setting textbox di bawah View tab untuk melihat grafik Anda akan menciptakan lebih
jelas.
Dalam Jaringan teks-kotak di bawah Metode tab y ou
pilih jumlah terdekat tetangga yang, untuk setiap sampel yang berbeda, akan
bergabung dengan grafik. Dengan menyeret slider Anda membuat grafik dengan
memilih semua tetangga dalam jarak yang dipilih. Cobalah.
·
Letakkan slider jarak ke 0 dan mengubah nilai ke 5.
Anda dapat melakukan hal ini baik oleh menggunakan tombol-tombol pilihan atau
dengan menulis langsung di kotak teks dan kemudian tekan Back.
1.1.5 Modifying annotations
·
Atur jaringan di Network textbox 0 lagi untuk
menghapus grafik.
·
Pilih tombol New Value di panel Sample Value di
jendela Sample Dock.
Sebuah Nilai Baru muncul di Tabel Nilai dan dipilih
secara otomatis
Figure 10:
Perhatikan bahwa Anda dapat mengubah nama New Value
yang muncul di Nilai Table hanya dengan mengklik ganda di kotak teks yang
sesuai dan memasukkan nama disukai.
·
Pilih Annotate di jendela Tool Box. Ini akan mengubah
perilaku tool Mouse untuk menetapkan sampel ke nilai sampel penjelasan.
·
Klik sampel (subkelompok jelas dilihat dari
"" yang paling dekat dengan subkelompok hijau "TEL-AML1")
satu per satu. Sampel tersebut kemudian dipindahkan ke kelompok sampel
"New Value".
Catatan bahwa jika Anda kebetulan memindahkan beberapa
sampel tidak sengaja Anda dapat membatalkan perintah terakhir Anda dengan
memilih tombol Undo di Toolbar Nilai.
Plot di bawah ini adalah dari tengah proses
reklasifikasi. Beberapa sampel tidak dijelaskan dalam kelompok baru (= biru
muda) dan beberapa masih putih.
Figure 11:
Dengan memilih Move di Tool Box, Anda dapat memutar
plot dan memeriksa bahwa Anda telah menandai semua sampel. Jika tidak, Anda
memilih Anotasi lagi dan menyelesaikan operasi. Ketika Anotasi dipilih dalam
Tool Box, Anda dapat memilih multi dan Anda kemudian memiliki pilihan untuk
memilih beberapa sampel dengan menggambar kurva tertutup di sekitar mereka.
Anda melakukan ini dengan menekan tombol kiri mouse sementara pada saat yang
sama bergerak pointer (mouse) jam bijaksana sekitar sampel yang dipilih untuk
membuat kurva tertutup.
Catatan: Jumlah variabel mengambil bagian dalam
perubahan analisis ketika Anda memperbarui subkelompok penjelasan. Hal ini
disebabkan fakta bahwa p-value diatur ke 1e-7 dan set variabel aktif sesuai
dengan ini p-nilai di bawah uji statistik yang dipilih tergantung pada
subkelompok yang kita pilih untuk membedakan. Dengan subkelompok baru kami
telah menambahkan informasi apriori dan diharapkan bahwa analisis ANOVA
dipengaruhi.
·
Pilih Move di Tool Box
Sekarang kita akan membuka jendela Plot lain di Ruang
Kerja.
1.1.6 Multiple Plot Windows
Anda dapat setiap saat selama analisis membuka jendela
Plot baru di Ruang Kerja. Ini Plot baru Windows yang membuka dapat disinkronkan
dengan aktif (disorot) Plot Jendela atau tidak. Jika Plot Windows disinkronkan,
mereka akan selalu berbagi sampel aktif yang sama dan / atau variabel, tetapi
mereka dapat, misalnya, akan diwarnai sesuai dengan penjelasan yang berbeda.
Model kerja ini sangat berguna karena Anda dapat kembali melihat beberapa aspek
dari data Anda di ruang kerja yang sama. Anda mengaktifkan (memilih) Window
Plot dengan mengklik di mana saja di dalamnya. Bingkai jendela Plot sedang
aktif selalu disorot.
·
Pilih Window> New Synchronized Plot di Menu Bar.
Perhatikan bahwa Anda sekarang memiliki dua Plot
Windows yang berbeda terbuka di Qlucore omics Explorer. Anda dapat menemukan
mereka terdaftar di bawah Window pada Menu bar.
·
Anda dapat memilih jendela untuk menampilkan atau Anda
dapat menampilkan semua jendela dengan memilih Window> Tile di Menu bar.
Figure 12:
·
Pastikan bahwa Plot Window baru aktif dan pilih Novel
Group di textbox Anotasi Contoh di Sample Dock Window.
·
Pilih Sample Color Button di Sample Annotations
Toolbar untuk mewarnai sampel dalam jendela aktif sesuai dengan Novel group
attribute
Kita sekarang dapat melihat Nilai subkelompok baru
kita di jendela kanan sesuai dengan "Grup Novel" di jendela kiri.
1.1.7 Mengerjakan dengan Variabel
Meskipun kami memiliki, tegasnya, telah bekerja dengan
variabel sepanjang waktu, karena kami telah disaring data, kita sekarang akan
kita lihat secara eksplisit.
·
Buat Jendela Plot Synchronized baru dengan memilih
menu Window dan New Synchronized Plot.
·
Pilih Tile di menu Window untuk melihat kedua plot
·
Pastikan bahwa Plot Jendela sebelah kiri adalah aktif
dan kemudian pilih Plot Jenis PCA dan Modus Variabel di tab Metode untuk
menampilkan PCA petak variabel.
Figure 13:
Hal ini memberikan dua berikut plot:
Figure 14:
Di Window Plot kiri atas Anda melihat plot PCA dari
115 variabel aktif berpartisipasi dalam analisis saat ini.
·
Pilih jendela kiri dengan mengklik di mana saja di
dalamnya, untuk mengaktifkannya.
·
Pilih Warna Bar. di bawah View Tab.
·
Pilih untuk mewarnai variabel "by data for one or
more samples" dan kemudian pilih Leukemia Subtipe penjelasan dan akhirnya
kelompok "E2A-PBX1".
Ada sejumlah cara untuk variabel warna (Solid,
varians, R2, ...) melihat daftar pilihan Color Variabel untuk semua pilihan.
Variabel sekarang berwarna sesuai dengan tingkat
ekspresi mean dalam kelompok subtipe dipilih dalam Tabel Nilai untuk Sampel
("E2A-PBX1"). Red berarti sangat disajikan, yaitu mereka up-diatur
dalam kelompok Sampel dipilih dan hijau sesuai dengan turun-diatur gen.
Di Plot Jendela sebelah kiri bawah Anda melihat PCA
petak tiga dimensi dari 115 variabel, mengambil bagian dalam analisis pada saat
ini, berwarna sesuai dengan tingkat ekspresi berarti mereka dalam Contoh
subtipe kelompok "E2A-PBX1". Perhatikan bahwa karena kita telah
memilih untuk bekerja dengan plot disinkronkan, variabel sangat disajikan dalam
kelompok "E2A PBX1" ditemukan dalam arah yang sama di plot sebagai
kelompok "E2A-PBX1" itu sendiri.
Figure 15:
·
Pilih View> Dock Jendela> Color Legenda untuk
melihat skala warna
Sekarang kita akan membuat daftar gen yang paling
diregulasi dalam kelompok "E2A-PBX1".
·
Pilih Variable Dock Window
Figure 16:
·
Pilih Daftar di Tool Box (agar mampu membuat pilihan
ini, plot jendela kanan harus aktif).
Figure 17:
Figure 18:
Variabel daftar baru tersedia di Variable Daftar
Tabel, menampilkan gen yang dipilih. Perhatikan bahwa penjelasan untuk gen yang
dipilih dalam daftar nama variabel yang ditemukan di Variable Anotasi Table.
Alat Daftar bekerja di jenis tanah termasuk variabel. Ini bisa menjadi plot PCA
variabel, peta panas atau plot pencar. Dengan tombol Pilih Kolom di jendela
dock variabel Anda dapat memilih informasi apa yang ingin hadir di Tabel
Variabel.
Anda dapat misalnya mendapatkan p dan q-nilai untuk
setiap variabel individu. Buat salinan dari daftar yang telah Anda buat
menggunakan tombol dan beri nama daftar untuk misalnya "Memisahkan E2A-PBX
pilihan", akhirnya pilih tombol Save untuk menyimpan daftar variabel untuk
digunakan di acara nanti.
Dengan tombol Open, Anda dapat mengimpor daftar
variabel yang sudah disimpan. Hal ini dimungkinkan untuk memiliki variabel
banyak daftar terbuka pada waktu yang sama. Daftar baik dapat dibuat dalam
QUOTE, karena kami hanya melakukan, atau menjadi daftar pengenal variabel
dibuat dari sumber lain (kategori gen ontologi, jalur, ..).
1.1.8 Membuat Penggolongan
Cara alternatif, untuk uji statistik, untuk
mengidentifikasi variabel (fitur) dari bunga acuan misalnya ketika tujuannya
adalah untuk melakukan penemuan biomarker, adalah untuk menciptakan classifier
dan mengamati variabel yang yang dipilih. Daftar ini variabel adalah titik awal
yang baik untuk memahami variabel yang yang terbaik potensial biomarker.
Membangun classifier yang dilakukan dari tab Build
Classifier. output adalah classifier, laporan luas dan daftar variabel variabel
yang dipilih.
1.1.9 Analisis lebih lanjut dan eksplorasi
Pada titik ini dalam analisis kita telah membahas
berbagai fungsi dan Anda memiliki membiasakan diri dengan metode seleksi,
pilihan pewarna, plot disinkronkan dan banyak lagi. Pada bagian berikut kita
akan lebih singkat menyoroti fungsi tambahan. Kita mulai dengan plot Box.
Box plot
·
Tutup Variabel PCA
·
Tutup Correlated Variable Box
·
Periksa daftar Variabel aktif untuk mencakup semua
variabel
·
Ganti ke Filter oleh Dua Kelompok perbandingan dan
E2A-PBX1
·
Pilih tab Metode dan mengubah jenis rencana untuk Box.
Untuk mengisi plot, data untuk sumbu X dan sumbu Y
kebutuhan untuk dipilih. Arahkan ke X Axis drop down box di Axis data Box di
Metode Tab dan pilih Anotasi Contoh "Leukemia Subtipe".
·
Pilih Y Axis di Tool Box
Figure 19:
·
Pilih Variable dalam daftar pencarian di Variable
window.
Anda harus mendapatkan plot seperti di bawah ini.
Seperti yang diharapkan nilai-nilai untuk variabel ini tinggi di Blue kelompok
(E2A-PBX1) karena itu adalah bagaimana kita memilih variabel dari awal. Setiap
kotak dihitung berdasarkan sampel di sub kelompok masing-masing. Bagian dari
kotak didefinisikan menurut berikut:
·
Garis putus-putus adalah nilai mean
·
Batas atas kotak adalah 75 persentil (default)
·
Batas bawah kotak adalah 25 persentil (default)
·
Secara default tepi kotak ditetapkan pada nilai data
titik terendah masih dalam 1,5 kali kisaran kotak batas kotak yang lebih
rendah, dan pada nilai titik data yang tertinggi masih dalam 1,5 kali kisaran
kotak batas kotak atas. Lingkaran mewakili outlier potensial dan mereka didefinisikan
oleh elemen data di luar tepi.
Figure 20:
Bar plot
Bar Plot dapat dikonfigurasi dalam beberapa cara dan
juga mendukung operasi pada kelompok (seperti rata-rata)
·
Bar Plot dapat dikonfigurasi dalam beberapa cara dan
juga mendukung operasi pada kelompok (seperti rata-rata)
·
Bar Plot dikendalikan dari tab Metode mana sumbu X dan
sumbu Y konten yang dipilih. Operasi data dikendalikan dari tab Options. Dari
tab View adalah konfigurasi visual yang dioperasikan.
·
Plot pertama di bawah ini menunjukkan kumpulan data
Qlucore Test. Sumbu X pertama memerintahkan sesuai dengan penjelasan
"Treatment" yang memiliki tiga nilai ("Drug 1", "Drug
2" dan "Placebo"), urutan kedua adalah dengan penjelasan
"Gender". Ini berarti bahwa dalam setiap "Treatment"
subkelompok bar yang diperintahkan menurut "Gender", dari plot kita
melihat bahwa "Perempuan" sampel pertama dan kemudian
"Pria".
Figure 21:
Dalam Pilihan Data tab yang berbeda Campurkan operasi
pada data dapat didefinisikan. Dalam plot bawah data rata-rata. Operasi selalu
berlaku untuk penjelasan kedua yang dipilih di tab Metode.
Figure 22:
Line plots and Kaplan Meier survival plot
Untuk menghasilkan penjelasan plot Kaplan Meier Sampel
yang mengandung waktu kelangsungan hidup itu diperlukan. Informasi sensor juga
dapat digunakan. Ini kemudian harus tersedia sebagai Contoh penjelasan kedua.
·
Pilih plot Line dan pilihan Kaplan-Meier di X-Axis
data Selection pada tab Metode. Juga menentukan jika data harus diatur dalam
kelompok yang berbeda.
·
Berikut ini adalah contoh dari set data uji Qlucore.
Kelangsungan hidup bagi pasien dalam tiga berbeda "Treatment"
kelompok ("Drug 1", "Drug 2" dan "Placebo")
disajikan.
Figure 23:
Scatter plots
Scatter plots sangat fleksibel dan mereka dapat diisi
dengan data dalam berbagai cara. Contoh pertama adalah Sampel scatter plot.
·
Pilih plot tipe Scatter dan mode Sampel dalam Metode
Tab.
·
Pada Tab Data, uncollapse data. Ubah pengenal Variabel
untuk probeset ID
·
Pilih alat X Axis di Tool Box dan pilih variabel
pertama dalam daftar Pencarian
·
Pilih alat Y Axis di Tool Box dan pilih variabel kedua
dalam daftar Pencarian
·
Pilih tab View dan Warna sampler dengan anotasi
"Leukemia Subtipe"
Ini harus memberikan plot berikut. Satu variabel pada
setiap sumbu dan semua sampel aktif diplot. Terhadap "E2A-PBX1"
kelompok (Biru) terpisah dalam plot karena itu adalah perilaku variabel dalam
arus daftar pencarian.
Figure 24:
Contoh kedua adalah Variabel Scatter Plot.
·
Pilih plot tipe Scatter dan mode Sampel dalam Metode
Tab.
·
Pilih Sample Window untuk melihat penjelasan sampel.
Periksa bahwa annotasi "Leukemia subtipe" terlihat.
·
Pilih alat X Axis di Tool Box dan pilih sampel pertama
di Sample Table (perhatikan bahwa angka-angka mungkin berbeda).
Figure 25:
·
Pilih alat Y Axis di Tool Box dan pilih grup E2A-PBX1
di Jendela Sampel.
Figure 26:
·
Pilih tab View dan pilih untuk Warna variabel dengan
anotasi "Leukemia Subtipe".
Pada sumbu X adalah Contoh bernama "E2A-PBX 12 M
# 1" di semua subplot. Pada masing-masing sumbu Y adalah sampel pada
kelompok E2A-PBX1. Setiap titik di plot merupakan salah satu 470 variabel
aktif.
Figure 27:
1.1.10 Mengekspor gambar, animasi dan data lainnya
·
Anda dapat mengekspor setiap saat selama analisis
berkelanjutan ekspor gambar atau animasi dari QOE.
·
Anda melakukan ini dengan memilih File> Ekspor>
Gambar atau File> Export> Video, dan kemudian memasok nama dan
karakteristik lain dari file yang diekspor.
·
Anda juga dapat mengekspor komponen utama, jarak
sampel, penjelasan dan data penting lainnya untuk analisis hilir, melihat File>
Export.
·
Dalam GSEA Workbench ada dua fungsi ekspor terpisah:
Daftar ekspor dan Hasil. Ekspor Daftar transfer salinan daftar yang dipilih ke
QOE utama daftar antarmuka program.
·
Dalam GO Browser Daftar Ekspor transfer hasil
pencarian ke QOE utama daftar antarmuka program.
Juga mencatat bahwa adalah mungkin, pada setiap titik
dalam analisis, untuk menyelamatkan keadaan saat lengkap QOE dengan menggunakan
fungsi Log. Anda kemudian dapat kembali ke titik tertentu dalam analisis,
dengan membuka file log yang sesuai di QOE, dan pilih titik log tertentu.
Tugas T3
Bab 4
1 Kasus pemanfaatan pada Qlucore Omics Explorer
1.1 Uji Hipotesis
Uji Hipotesis adalah semua tentang membuat keputusan
mengenai satu atau lebih populasi, menggunakan informasi yang diberikan oleh
pengambilan sampel dari populasi tersebut. Sebelum kita mulai, penting bahwa
populasi yang kita tertarik didefinisikan secara hati-hati dan bahwa set data
yang diperoleh dari sampel adalah wakil dari populasi ini. Misalnya, mengatakan
bahwa kami tertarik dalam pengujian jika pria, rata-rata, lebih tinggi daripada
wanita, dan bahwa kita mengukur 100 orang yang dipilih secara acak dan 100
wanita yang dipilih secara acak dari wilayah geografis tertentu. Bisakah kita
kemudian menggunakan hasil dari uji statistik untuk mengatakan sesuatu tentang
ketinggian rata-rata di populasi di seluruh dunia laki-laki dan perempuan? Jika
ada efek regional, hasilnya hanya mungkin benar untuk populasi laki-laki dan
perempuan di wilayah kita belajar. Kemampuan untuk membuat keputusan tentang
populasi hanya menggunakan informasi sampel adalah penting karena sering tidak
layak untuk mempelajari seluruh populasi (jika kita bisa, tidak akan ada
kebutuhan untuk uji statistik). Kelemahan dari pendekatan ini adalah, tentu
saja, bahwa karena kita tidak mempelajari seluruh populasi, kita tidak pernah
bisa menarik kesimpulan tentang hal itu dengan kepastian 100%. Kerangka Uji
Hipotesis memungkinkan kita untuk menangani ketidakpastian ini dengan cara
formal.
1.1.1 Apa itu Hipotesis?
Sebuah hipotesis statistik adalah pernyataan mengenai
populasi bunga. Dalam rangka pengujian hipotesis umum, kita memiliki hipotesis
nol (H0) dan hipotesis alternatif (Ha). Hipotesis nol sering merupakan keadaan
"tidak berpengaruh". Pada contoh di atas ketinggian, hipotesis dapat
·
H0: tidak ada perbedaan antara ketinggian rata-rata
pria dan wanita
·
Ha: ada perbedaan antara ketinggian rata-rata pria dan
wanita
1.1.2 Apa itu nilai P?
Hasil tes hipotesis statistik sering diwakili dengan cara
p-nilai. Untuk mendapatkan dari nilai-nilai yang diamati dari variabel kami
untuk p-value, pertama kita perlu membangun sebuah uji statistik. Uji statistik
memberikan ringkasan numerik dari data sampel dan dirancang untuk menangkap
efek yang kita tertarik belajar. Pada prinsipnya, kita bisa memikirkan banyak
statistik uji yang akan menangkap efek yang diberikan. Alasan untuk memilih
statistik tertentu sering bahwa di bawah beberapa asumsi mengenai populasi yang
mendasari, kita bisa menghitung secara teoritis bagaimana statistik akan
didistribusikan jika hipotesis nol itu memang benar. Kemudian, kita dapat
membandingkan nilai yang kita dihitung dari data kami sampel untuk distribusi
ini dan mengatakan bagaimana mungkin akan mendapatkan nilai statistik uji yang
sama atau lebih ekstrim daripada diamati satu, mengingat bahwa hipotesis nol
benar. probabilitas ini justru definisi dari p-value. Dalam contoh di atas,
p-nilai kecil akan berarti bahwa itu akan sangat tidak mungkin untuk
mendapatkan nilai statistik uji yaitu sebagai atau lebih ekstrim seperti yang
kita telah dihitung dari sampel kami, jika ada benar-benar tidak ada perbedaan
antara ketinggian rata-rata laki-laki dan perempuan dalam populasi.
Sebaliknya, p-nilai yang besar berarti bahwa sangat
mungkin untuk mendapatkan seperti nilai ekstrim bahkan jika hipotesis nol
benar. Dengan demikian, dalam kasus terakhir tidak akan ada bukti yang
signifikan untuk efek seks pada tinggi karena tampaknya, kita bisa sangat baik
telah mengamati ketinggian diperoleh dalam percobaan kami bahkan jika tidak ada
perbedaan antara ketinggian rata-rata pada wanita dan laki-laki populasi . Jika
dihitung p-nilai di bawah ambang batas signifikansi pra-ditentukan (sejauh ini,
ambang batas signifikansi yang paling umum adalah 0,05) kita menolak hipotesis
nol. Sebaliknya, jika p-value berada di atas ambang batas signifikansi, kita
tidak menolak hipotesis nol. Beberapa hal yang perlu diperhatikan (lihat juga
artikel oleh Goodman untuk diskusi yang lebih luas):
·
Nilai p tidak memberitahu Anda seberapa besar
kemungkinan itu adalah bahwa hipotesis nol benar. Demikian pula, ia tidak
memberitahu Anda seberapa besar kemungkinan itu adalah bahwa hipotesis
alternatif benar.
·
Jika Anda tidak dapat menolak hipotesis nol, Anda
belum membuktikan bahwa hipotesis nol benar, tetapi hanya bahwa data saat set
tidak memberikan cukup bukti untuk menolaknya. - Tidak ada yang
"ajaib" dengan tingkat signifikansi 0,05. Pada tahun-tahun awal
pengujian hipotesis, tabel yang digunakan untuk menentukan daerah penolakan
untuk uji statistik. daerah tersebut pra-dihitung dan ditabulasi untuk ambang
p-value beberapa saja. Namun, komputer saat ini dengan mudah memberikan tepat
p-nilai dan dengan demikian nilai yang sebenarnya harus dilaporkan bukan hanya,
misalnya, p <0,05. Memiliki aktual p-nilai ini juga diperlukan untuk
menghitung dikoreksi p-nilai (q-nilai, lihat di bawah).
1.1.3 Apa itu nilai Q?
Menggunakan p-nilai untuk menafsirkan hasil uji
statistik bekerja dengan baik jika kita hanya melakukan satu tes (yaitu, jika
kita hanya memiliki satu variabel dalam set data kami). Setelah jumlah tes
meningkat, kegunaan dari p-nilai sebagai ukuran signifikansi menurun. Untuk
melihat mengapa, asumsikan bahwa kita memiliki 10.000 variabel dalam set data
kami, dan bahwa hipotesis nol benar untuk masing-masing dan setiap satu dari
mereka. Sekarang menerapkan uji statistik untuk masing-masing variabel. Karena
definisi dari p-value, kami berharap 5% dari variabel untuk memberikan
nilai-nilai statistik uji yang lebih ekstrim daripada apa yang diperlukan untuk
menolak hipotesis nol pada tingkat signifikansi 0,05. Dalam contoh khusus ini,
dengan demikian kita akan memiliki sekitar 0,05 * 10.000 = 500 variabel dengan
p-nilai di bawah 0,05, meskipun hipotesis nol sebenarnya berlaku untuk semua
variabel! Ini disebut penemuan palsu, atau positif palsu. Jika memang ada
beberapa variabel dalam data yang ada perbedaan yang benar, mereka akan
dicampur dengan positif palsu.
Interpretasi alternatif, cocok untuk situasi di mana
beberapa tes dilakukan, diberikan oleh tingkat penemuan palsu (FDR). FDR adalah
fraksi yang diharapkan dari penemuan palsu di antara semua hasil tes
signifikan. HaInterpretasi alternatif, cocok untuk situasi di mana beberapa tes
dilakukan, diberikan oleh tingkat penemuan palsu (FDR). FDR adalah fraksi yang
diharapkan dari penemuan palsu di antara semua hasil tes signifikan. Hal ini
dimungkinkan untuk menghitung dikoreksi Nilai P, atau Nilai Q, untuk
masing-masing variabel. Nilai Q adalah analog FDR dari Nilai P konvensional.
Untuk variabel tertentu (misalnya, dengan p-value p *), Nilai Q memperkirakan
fraksi penemuan palsu di antara semua variabel dengan Nilai P di bawah p *.
Perhatikan bahwa Nilai Q tidak memberikan probabilitas bahwa variabel
sebenarnya adalah positif palsu. Oleh karena itu, ia tidak memberitahu Anda
yang variabel yang paling mungkin penemuan palsu. Untuk mendapatkan perasaan
untuk tarif penemuan palsu, bayangkan mengambil semua Nilai P yang dihitung dan
lapisan mereka, memerintahkan dalam urutan yang meningkat. Menetapkan cutoff
signifikansi sekarang berarti untuk memutuskan ambang (misalnya Nilai P 0,05),
dan mempertimbangkan semua nilai p di bawah ambang batas yang mewakili
"penemuan". Tingkat penemuan palsu adalah fraksi yang diharapkan dari
penemuan palsu di antara ini, yaitu, fraksi penemuan yang hipotesis nol
benar-benar benar (ingat bahwa hipotesis nol didefinisikan dalam hal parameter
populasi). Sebuah penemuan palsu demikian variabel yang memperoleh pvalue
rendah hanya kebetulan acak, tanpa sinyal mendasari benar dalam populasi. Salah
satu cara untuk mengurangi jumlah penemuan palsu akan mendorong cutoff
signifikansi lebih dekat ke nol. Namun, sejak penemuan palsu dicampur dengan
penemuan yang benar (yang untuk yang ada benar-benar berpengaruh pada tingkat
populasi), ini akan mengecualikan banyak penemuan yang benar. Dengan kata lain,
kita sering perlu untuk memungkinkan beberapa penemuan berpotensi palsu untuk
mendapatkan orang-orang yang benar. Nilai Q dihitung dengan Qlucore omics
Explorer dapat digunakan dalam cara yang berbeda. Satu pendekatan adalah untuk
memutuskan mana yang diharapkan sebagian kecil dari penemuan palsu yang satu
bersedia menerima dan kemudian menetapkan ambang batas Nilai Q yang diinginkan,
di toolbox Statistik, untuk fraksi ini. Di antara variabel yang tersisa setelah
prosedur ini, Anda dapat mengharapkan fraksi penemuan palsu untuk tidak
melebihi fraksi ditentukan (perhatikan bahwa mungkin terjadi bahwa tidak ada
variabel tetap setelah prosedur ini, jika batas tingkat penemuan palsu yang
diinginkan terlalu ketat). Apa tingkat yang dapat diterima dari penemuan palsu
tentu saja sangat bergantung pada aplikasi tertentu, tetapi 10% (yaitu ambang
nilai Q 0,1) adalah wajar dalam banyak kasus. Pendekatan kedua untuk menggunakan
Nilai Q adalah untuk menentukan cutoff signifikansi dengan cara lain (misalnya,
berdasarkan Nilai P seperti digambarkan di atas). Nilai Q terbesar di antara
variabel yang tersisa kemudian dapat digunakan sebagai perkiraan fraksi
penemuan palsu di antara. Perlu diingat bahwa Nilai Q, seperti Nilai P, terkait
dengan tes tertentu dan dengan demikian memeriksa bahwa pengaturan di toolbox
Statistik setuju dengan tes yang ingin Anda lakukan.
1.1.4 Haruskah saya gunakan uji satu sisi atau dua
sisi?
Pilihan satu-sisi atau dua sisi (kadang-kadang
satu-ekor atau dua ekor) tes datang ke rumusan hipotesis Anda (dan karenanya,
pilihan harus dibuat sebelum ujian diterapkan). Sebuah uji satu sisi
mengasumsikan bahwa hanya penyimpangan dalam satu, pra ditentukan, arah menarik
(yaitu, sesuai dengan hipotesis alternatif).
Dalam kebanyakan situasi, uji dua sisi ini bisa
dibilang yang paling tepat, dan penggunaan uji satu sisi umumnya membutuhkan
motivasi yang cukup besar. Asumsikan, misalnya, bahwa kita mencoba obat baru,
dan kami ingin membandingkannya dengan pengobatan konvensional. Dalam situasi
ini, kita mungkin menganggap bahwa obat baru akan tampil lebih baik daripada
pengobatan lama, dan dengan demikian menggunakan uji satu sisi. Namun, ini
berarti bahwa bahkan jika obat baru ternyata melakukan jauh lebih buruk dari
yang lama, semua dapat kita katakan dari satu tes sisi adalah bahwa kita tidak
dapat menolak hipotesis nol bahwa itu adalah sama baik atau lebih buruk
daripada pengobatan lama. Jelas, hal itu mungkin sangat baik menjadi menarik
untuk mengetahui apakah obat baru sebenarnya secara signifikan lebih buruk dari
yang lama, bahkan jika hasil ini tak terduga.
Dalam Statistic Dock Windows Anda mengontrol jenis uji
statistik yang ingin Anda siapkan. Tes yang tersedia adalah:
·
Dua Kelompok Perbandingan (t-test)
·
Multi Grup Perbandingan (F-test)
·
Regresi Linear
·
Regresi Kuadrat
·
Regresi Pangkat
Figure 1:
Komponen lain dari dialog statistik adalah Variance
slider di atas, p value slider dan Fold Change slider. Penggunaan slider
varians tercakup dalam bagian "Basic eksplorasi" pada halaman 27.
p-value slider digunakan untuk memilih p-value pembatas untuk uji statistik
yang dipilih. The fold change diterapkan setelah Variance dan uji statistik.
Perubahan fold hanya didefinisikan untuk dua perbandingan kelompok.
Di bagian atas dialog statistik terdapat informasi
masukan. Ini menunjukkan berapa banyak variable yang digunakan sebagai input
untuk filter. Jika Anda tidak melakukan pilihan dalam Variabel, maka tab itu
akan mengatakan "Semua variabel aktif". Kotak merah adalah nilai
Proyeksi.
Catatan: tab Advanced adalah interface untuk statistik
r-script.
Untuk mengatur tes dan menemukan variabel yang paling
terpisah "Placebo" dari "Drug 1" dan "Drug 2",
dan memiliki perubahan Fold minimal 1,5, melaksanakan langkah-langkah berikut:
·
Pilih Filter dari Dua Kelompok Perbandingan (t-test)
di jendela Statistik.
·
Pilih "Treatment" di kotak Combo
·
Pastikan bahwa "Placebo" disorot dalam kotak
Combo ketiga
·
Pindahkan Lipat Perubahan slider ke 1,5.
Sesuaikan slider p-value ke-nilai p dari 0,0265,
melakukannya perlahan-lahan. Anda dapat melihat bagaimana heatmap diperbarui
terus menerus dan jumlah variabel yang memenuhi batasan Kriteria menurun. Ada 3
variabel yang memiliki value p dari 0,0265 atau lebih rendah untuk t-test
(Pengujian "Placebo" dipilih terhadap sampel dalam kelompok
"Obat 1" dan "Obat 2") yang memiliki change Fold minimal
1,5.
Yang sesuai value q (0.015698) (yang dapat diartikan
sebagai penemuan rate palsu) juga ditampilkan di Windows Statistik dan 3
variabel yang sekarang tersisa di analisa memiliki kenaikan statistik yang
tinggi. Berapa banyak Anda harus menyaring tergantung pada struktur data dan
apa tingkat signifikansi yang ingin Anda capai. Hasil ditunjukkan pada plot di
bawah ini.
Figure 2:
Menggunakan plot kita dapat melakukan beberapa
observasi:
·
Tiga variabel (ID_13, ID_21 dan ID_40) memiliki yang
kenaikan statistic terbaik (karena mereka yang tampak) dan mereka juga memiliki
change Fold minimal 1.5.
·
Cabang pertama (menghitung dari atas) adalah
pengelompokan hirarkis yang membagi Sampel menjadi dua kelompok;
"Placebo" dan "Obat 1 dan Drug2". Kedua cabang membagi
"Obat 1 dan Obat 2" cluster menjadi "obat 1" dan "Obat
2". ini adalah harapan kita karena telah menggunakan uji statistik untuk
mengidentifikasi variabel yang benar-benar paling terpisah pada
"Placebo" dari "Obat 1 Obat 2".
·
Dari pengaturan, kita dapat menyimpulkan misalnya
bahwa ID_21 variabel memiliki nilai tinggi untuk sampel pada kelompok
"Obat 1" dan bahwa ID_13 variabel memiliki nilai rendah untuk semua
sampel di kelompok "Placebo". Dengan pengaturan default, warna merah
di heatmap menunjukkan bahwa variabel memiliki nilai tinggi untuk sampel itu
dan hijau menunjukkan bahwa variabel memiliki nilai rendah untuk sampel itu.
·
Pilih Box Label di tab View. Label variabel sesuai
dengan variabel Annotation "Symbol".
·
Pilih tab View dan Order variabel menurut Change fold
·
Pilih tab View dan variabel Warna menurut Change fold.
·
Pilih tab View dan sample Warna untuk semua Annotation.
"Pilih Semua"
Figure 3:
Salah satu kunci dalam penggunaan QOE adalah bahwa hal
itu akan sangat mudah untuk mengubah analisa jalan. Untuk memberikan contoh
tentang hal ini pilih Window Sample dan pilih "Treatment" anotasi.
Kemudian hapus "Obat 2" kotak centang kelompok. Ini menghapus semua
sampel untuk yang "Treatment" Annotation sama dengan "Obat
2", dan update hasil yang sesuai.
Hasilnya update segera disajikan, lihat gambar di
bawah. Hasilnya adalah uji statistic yang diperbarui menemukan variabel yang
paling memisahkan "Placebo" dari "Obat 1".
Dengan pengaturan yang sama dalam statistik dialog
lebih variabel (4) sekarang menemukan yang cocok dengan kriteria tes sebelumnya
dipilih.
Ini akan memberi Anda plot berikut. Ini berisi banyak
informasi. Berbagai cara untuk mengubah pewarnaan, pelabelan dan memesan
memberikan fleksibilitas yang luas untuk menyesuaikan plot dengan kebutuhan
Anda.
Figure 4:
Color Legend menunjukkan skala warna untuk variabel
yang berwarna sesuai dengan Fold Change. Sebagai contoh, kita mengamati bahwa
variabel dengan "Symbol" nama MYO1B memiliki Fold Change tertinggi.
Juga mengamati karena kami telah bekerja dengan dua tes sisi Perubahan
pengaturan Lipat dari 1,5 berlaku untuk kedua arah, yaitu plus 1,5 dan -1,5.
Ada banyak jenis plot yang sekarang dapat digunakan
untuk memberikan wawasan lebih dalam Temuan seperti Kaplan-Meier jika data
termasuk informasi survival, kotak plot untuk memberikan informasi rinci
tentang bagaimana variabel bervariasi dari sub-kelompok yang berbeda dan bar
rencana untuk memvisualisasikan data setelah beberapa Annotation seperti waktu
dan pengobatan.
Ada banyak cara untuk menyimpan hasil yang diperoleh:
·
Log fungsi dalam Log Dock windows dapat digunakan,
pilihan lain adalah untuk memilih File> Export>Gambar untuk di ekspor.
Hal ini juga memungkinkan untuk menyimpan daftar
variabel, yang adalah apa yang akan kita menunjukkan di bawah:
·
Pilih Window Variable.
Figure 5:
·
Daftar Search khusus itu dibuat ketika kumpulan data
pertama dimuat. Daftar Search Termasuk dari hasil pencarian terakhir dilakukan.
·
Daftar kedua adalah Active list. Ada satu Active list
untuk setiap set data yang terbuka. Active list itu memiliki nama yang sama
dengan kumpulan data. Dalam Variable List Table semua variabel terbuka
tercantum daftar. Selain Search List dan Active List tabel ini dapat berisi
daftar yang diimpor secara manual, atau daftar yang dihasilkan dengan browser
GO atau yang diekspor dari GSEA Workbench.
Active list mencakup semua variabel yang aktif dalam
satu set data. Sekarang daftar 4 mencakup variabel yang sesuai uji statistik
yang dilakukan. Mengubah slider p-value dalam Statistik Windows dan mengamati
bagaimana daftar ini diperbarui untuk menyertakan lebih sedikit atau variable
lebih. Sebelum menyimpan daftar, hal ini berguna untuk mengisi dengan informasi
yang relevan.
·
Membuat salinan dari Active List.
·
Gunakan Select Kolom tombol dan menambahkan kolom yang
menarik. Pilih "p- value "," q-value "dan" Symbol
"dari daftar. Kolom ini kemudian ditambahkan ke Daftar.
·
Dalam Variable informasi Daftar bagian dari tab
Variable ada dua elemen informasi: Variabel properties List dan Komentar. Kamu
bisa menambah informasi anda mengenai daftar di Komentar lapangan.
Daftar Variable bidang properti akan mencakup informasi
tentang bagaimana daftar diciptakan. Di bawah ini kita bisa melihat bahwa
misalnya daftar diciptakan menggunakan Dua perbandingan kelompok dan yang 8
sampel dari 12 aktif
Figure 6:
·
Pilih icon save, masukkan nama file dan lokasi untuk
menyimpan file. Langkah selanjutnya adalah untuk memutuskan apa yang akan
dimasukkan dalam daftar.
Dalam dialog Export Variabel List Anda akan disajikan
dengan beberapa pilihan, seperti cara untuk menyimpan hanya variabel aktif atau
semua variabel, dan apakah akan menyertakan Annotation atau tidak. Catatan:
Nilai-nilai perhitungan statistik untuk variable di dalam daftar variabel
diperbarui secara dinamis ketika input berubah.
Variabel daftar sekarang disimpan dan itu termasuk
dengan 4 baris informasi. Sebagai Variabel ID, "Simbol", p-value dan
q-value. File ini adalah tab file teks yang terpisah dengan informasi tentang
bagaimana daftar itu dibuat dan Anda dapat membukanya menggunakan program
Spreadsheet atau editor teks biasa.
Jika Anda membutuhkan file teks biasa tanpa komentar
menggunakan "text Plain format file" pilihan dalam Simpan dialog.
Tip: Cobalah beberapa pilihan yang berbeda dan membuka file yang disimpan dalam
spreadsheet program atau editor lalu memeriksa hasil.
Pada bagian ini kita telah melakukan uji statistik
(t-test + Lipat Perubahan filtering) dan menampilkan hasil menggunakan Heatmap.
Selama analisis, satu kelompok sampel terpilih dan bekerja terus pada subset
dari data. Akhirnya hasilnya disimpan dalam daftar variabel.
1.1.5 Data set eksplorasi
Pada bagian ini kita akan menunjukkan bagaimana
pendekatan satu set data baru dan bagaimana cara memahami informasi tentang
data set termasuk menggunakan sistem informasi biologi.
·
Eksplorasi dasar
QOE sangat cocok untuk menyelidiki dan menjelajahi
satu set data. Jenis pekerjaan ini sering juga disebut data mining atau
generate hipotesis. Pengguna mencari hal-hal yang baru dalam dataset dengan
kecepatan dan interaktivitas didukung dengan komponen penting yang mendukung
jenis pekerjaan. Untuk bagian ini kumpulan data Acute Lymphoblastic Leukemia
akan digunakan sebagai contoh.
·
Buka data Acute Lymphoblastic Leukemia dengan
selecting Help -> Example Files -> Acute Lymphoblastic Leukemia.gedata
Bahkan ketika kita memutar gambar ini (pilih Move
fungsi dalam Toolbox) sangat sulit untuk membedakan struktur atau pola dalam
plot. Alasan untuk ini adalah bahwa semua 22282 gen (variabel) terlibat dalam
analisis. Kebanyakan dari mereka memiliki kemungkinan yang sangat kecil untuk
melakukan variasi genetik yang berbeda dengan yang kita simpulkan, tapi semua
dari mereka berkontribusi dengan ramainya data dalam fluktuasi kecil. Pada
titik ini skor proyeksi akan mendukung secara analisis, lihat gambar di bawah.
Rata rata proyeksi adalah 0,41 dan tingkat diindikasikan sebagai hijau. Rata
proyeksi akan menginformasikan kepada kami tentang seberapa baik 3 dimensi PCA
plot mewakili kumpulan data. Kita bisa meningkatkan tampilan dengan memilih gen
yang berkontribusi paling besar terhadap Variasi set data dan membuang gen yang
hanya menunjukkan variasi kecil (mungkin acak) pada fluktuasi.
·
Pindahkan Filter by Variance Slider di Statistik
Windows dan temukan pengaturan dengan skor proyeksi tertinggi (0,43). Hal ini
dapat dilakukan dengan menyeret slider dengan mouse.
Figure 7:
Hanya gen standar yang memiliki deviasi lebih dari
(atau sama dengan) 39,5% dari Varians. Gen terbesar yang memiliki deviasi
standar di atas sampel sekarang ikut terlibat dalam analisis. Hal ini terjadi
untuk menepati 385 variabel (gen) yang dapat terlihat di Status Bar, di mana ia
menunjukkan bahwa hanya 385 dari 22.282 variabel (gen) saat ini terlibat dalam
analisis. Pola sekarang jelas terlihat di Plot Windows
Figure 8:
Dengan menggunakan PCA satu, memastikan bahwa pasien
yang menyerupai ekspresi gen profil jatuh di dekat satu sama lain dalam plot.
Sebagai catatan, ingat bahwa setiap saat Anda
menganalisa dari kumpulan data dapat menggunakan Window Log untuk membuat poin
Log. Dengan memilih Log yang dibuat sebelumnya, Anda dapat kembali ke titik itu
dalam analisa. Anda juga dapat mengekspor (dan impor) Log poin sehingga Anda di
lain waktu dapat kembali menelusuri seluruh analisis.
Figure 9:
Kita sekarang kembali ke analisa yang sedang
berlangsung.
Seperti yang bisa dilihat di plot sampel PCA, komponen
utama pertama berisi 22% dari total varians dan jelas membedakan kelompok baru
dari sisa subtype yang ada.
Agar lebih jelas memahami struktur ketika plotting
subtipe lain, kita sekarang akan menghapus grup baru dari PCA-analisis.
Pertama kita perlu membuat sampel Annotation baru
dengan beberapa nilai:
·
Pilih New Anotasi icon di dalam Sample Value panel di
dalam Sample Window dock.
·
Pilih New Value icon dua kali
Figure 10:
·
Pastikan bahwa "New Sample (2) group"
dipilih dalam Sample panel
·
Pilih Anotasi dan lingkaran kelompok searah jarum jam
baru, Setelah lingkaran tertutup akan tampil seperti di bawah ini.
Figure 11:
·
Hapus centang pada kotak centang yang sesuai untuk New
Value 2 dalam tabel Sample Value di Windows Sampel Dock PCA segera menghitung
ulang dan memiliki plot berikut. Juga mencatat bahwa rata proyeksi dihitung
ulang karena jumlah sampel berubah.
Figure 12:
Perhatikan bahwa kita sekarang memiliki 118 dari 132
sampel muncul dalam plot. Teks 118/132 Sampel ditampilkan dalam Status Bar
bersama dengan teks 288/22282 Variabel.
Beberapa kelompok sekarang terlihat jelas dan kita
bisa melanjutkan proses pembuatan nilai Anotasi baru, keterangan kelompok
diidentifikasi dari sampel, hapus mereka dari plot yang berpotensi menyesuaikan
nilai proyeksi.
Selama eksplorasi ini kita telah menggunakan PCA yang
dikombinasikan dengan varians filter untuk mengidentifikasi subkelompok
potensial.
Dari plot PCA kita lihat 5-6 kelompok potensial. Mari
kita terapkan pengelompokan dan mencari 5 kelompok, untuk melihat metode apa
yang tidak memberika pengawasan.
Clustering dikendalikan dari tab Cluster. Masukkan 5
dan tekan Run.
Figure 13:
Hasilnya akan menunjukan sebagai Contoh Annotation
baru. Ini disebut "k-means 5" setelah metode dan nomor dipilih oleh
cluster.
Lihat di Panel Sampel.
Setelah plot PCA telah diwarnai sesuai dengan Sampel
Annotation baru akan terlihat seperti di bawah ini.
Figure 14:
Lima
kelompok potensial telah diidentifikasi. Siluet Plot digunakan untuk menilai
kualitas pengelompokan. Nilai siluet positif menunjukkan bahwa sampel dekat
dengan sampel yang lain dan dalam kelompok yang sama. plot siluet konfigurasi
khusus dari Bar plot.
1.1.6 Apa yang dimaksud dengan t-test dan Kapan saya
harus menggunakannya?
Sebuah (dua sampel) t-test dirancang untuk membandingkan
nilai rata-rata dari variabel antara dua populasi. T-test umumnya digunakan
dalam banyak situasi praktis dan, meskipun keabsahannya tergantung pada
beberapa asumsi yang mendasari, sering cukup kuat untuk penyimpangan dari ini.
Secara khusus ini benar jika jumlah sampel besar dan merata antara dua kelompok
sampel.
T-test mengasumsikan bahwa sampel dikumpulkan secara
independen. Jika, misalnya, semua sampel dari satu populasi diambil dari subjek
yang sama, varians dapat diremehkan serius yang mengarah ke kesimpulan cacat.
Anda dapat secara umum tidak menguji atau benar untuk ini setelah data yang
telah dikumpulkan.
Asumsi lain yang mendasari t-test adalah bahwa
variabel terdistribusi secara normal di setiap populasi. Namun, untuk ukuran
kelompok sampel yang besar (lebih dari, katakanlah, 20-30 pengamatan per
kelompok), asumsi ini tidak kritis dan juga untuk kelompok sampel kecil ukuran
t-test sering cukup kuat terhadap penyimpangan dari normalitas. Anda dapat
memeriksa asumsi normalitas grafis di Qlucore omics Explorer menggunakan kotak
plot, yang harus simetris (yaitu, dengan median sekitar di tengah kotak, dengan
kumis sekitar sama panjang di setiap sisi). Sayangnya, hal itu bisa sulit untuk
mengatakan dari satu set kecil sampel apakah asumsi normalitas puas atau tidak
(dan jika kita memiliki banyak sampel, kita melihat bahwa asumsi tidak mungkin
yang penting). Kemungkinan lain adalah dengan menggunakan pengalaman
sebelumnya, yang mungkin menunjukkan bahwa variabel yang dipertimbangkan
kemungkinan akan sekitar terdistribusi normal. Kekokohan t-test juga tergantung
pada ukuran kelompok sampel relatif dalam kumpulan data kami dan apakah varians
adalah sama antara dua populasi. T-test digunakan oleh Qlucore omics Explorer
mengasumsikan varians sama antara populasi. Asumsi ini dapat diperiksa secara
grafis menggunakan plot pencar variabel. Jika jumlah sampel pada kedua kelompok
adalah sama, t-test ini cukup kuat terhadap pelanggaran asumsi ini. Melihat
angka pada bagian ANOVA bawah untuk ilustrasi tentang bagaimana untuk memeriksa
asumsi normalitas dan kesetaraan varians grafis, menggunakan alat yang
disediakan dalam Qlucore omics Explorer.
Jika data menunjukkan cukup non-normalitas dan / atau
ketimpangan varians, transformasi mungkin berguna. Misalnya, jika nilai-nilai
yang miring ke kanan, transformasi logaritmik dapat memberikan distribusi yang
lebih dekat dengan normal. Salah satu contoh dari hal ini adalah data ekspresi
gen yang diperoleh dari microarray, yang sering diasumsikan mengikuti distribusi
normal setelah transformasi logaritmik. Satu harus, bagaimanapun, perhatikan
bahwa transformasi mengubah skala nilai-nilai dan mungkin dalam beberapa kasus
membuat hasil yang lebih sulit untuk menafsirkan. A dipasangkan t-test
digunakan ketika data datang berpasangan, misalnya, jika masing-masing subjek
telah diberikan baik dari dua perlakuan dibandingkan. Menerapkan dipasangkan
t-test dapat meningkatkan kekuatan untuk mendeteksi perbedaan antara kelompok
dengan akuntansi untuk perbedaan antara individu.
1.1.7 Memanfaatkan informasi biologi System (GSEA dan
GO)
Analisis jalur, atau analisis set gen, adalah nama
kolektif untuk metode yang bertujuan untuk analisis statistik dari kumpulan
gen, bukan gen tunggal, dalam satu set data yang diberikan. Biasanya, gen
dikelompokkan bersama dalam koleksi (atau satu set gen) jika mereka memiliki
sesuatu yang sama, misalnya, jika mereka adalah bagian dari jalur biologis yang
sama atau jika mereka semua terletak dekat satu sama lain di sepanjang genom.
Untuk melakukan jalur (set gen) analisis, dua komponen
yang diperlukan: kumpulan data, dan satu atau beberapa set gen yang telah
ditetapkan (yaitu, set gen tidak harus didefinisikan berdasarkan nilai-nilai
dalam kumpulan data). Gen set definisi sering diperoleh dari repositori online
terbuka seperti mSigDB dan Reactome, atau dari produk komersial khusus
menyediakan informasi jalur curated secara manual.
“Kami sejauh ini hanya digunakan isi dari file data
(termasuk penjelasan) untuk melakukan analisis data percobaan.” Qlucore juga
menawarkan meja kerja GSEA sebagai alat untuk menganalisis hasil dari uji
statistik dalam konteks daftar lain (gen set). Baca lebih lanjut tentang GSEA
sebagai metode dalam Subramanian, Tamayo, dkk. 2005 Proc Natl Acad Sci U S A
102 (43): 15.545-50.
Untuk menunjukkan GSEA Workbench dan GO-browser yang
kita akan mulai kembali analisis:
·
Tutup semua data yang terbuka pada QOE
·
Buka data akut Lymphoblastic Leukemia dibuka dari Help
> Example Files
Set contoh gen tersedia di QOE dibangun sekitar Simbol
Gene sebagai identifikasi unik untuk gen sedangkan kumpulan data Leukemia kita
telah menggunakan sejauh ini didasarkan pada ID probeset (Affymetrix) sebagai
identifikasi unik untuk setiap variabel (gen). Perbandingan tanpa mengambil ini
ke rekening akan memberikan nol pertandingan antara dua sumber informasi.
Pilih tab Data dan kotak Identifier. Ubah Identifier
Variabel untuk "Gene Symbol". Perhatikan bagaimana dua kolom, untuk
daftar aktif, dalam daftar variabel panel diperbarui untuk mencerminkan
perubahan identifier. Kolom pertama adalah jumlah elemen yang unik (Simbol
Gene) dalam kumpulan data dan kolom kedua adalah jumlah pertandingan. Karena
kita tidak melakukan penyaringan atau seleksi jumlah pertandingan sama dengan
jumlah probe set dalam kumpulan data (22.282).
Figure 15:
Untuk mendapatkan variabel yang unik untuk setiap Gene
Simbol kita perlu runtuh variabel yang memiliki satu atau lebih pemeriksaan set
terpasang. Pilih runtuh berdasarkan rata-rata di drop down box di samping
pemilihan identifier Variabel. Data diperbarui set belum termasuk 13.262
variabel yang masing-masing dari mereka cocok dengan Gene Symbol.
Mulai GSEA Workbench (Lihat menu). Sebuah jendela baru
akan terbuka. QUOTE dikirim dengan tiga contoh set gen untuk tujuan
demonstrasi. Ketika GSEA Workbench dimulai itu membuat salinan data di set
aktif data. Pengaturan statistik yang relevan juga disalin dari dialog
Statistik.Catatan: Karena GSEA Workbench bekerja dengan salinan data membuat
Anda dapat terus bekerja dan menganalisis data Anda diatur dalam QOE Main
Window.
Jika Anda menggunakan pengaturan default Anda akan
melihat layar seperti di bawah ini. Sekarang mengubah pengaturan sesuai dengan
langkah-langkah berikut.
·
Pastikan kedua Sets Qlucore Uji Gene dipilih
·
Mengubah Metric menjadi SNR pada Leukemia Subtipe dan
kelompok E2A-PBX1.
·
Tekan Run untuk memulai perhitungan skor Pengayaan.
Figure 16:
Pengayaan
Skor dihitung untuk semua set gen dan daftar hasil di tengah diperintahkan
sesuai dengan Skor Pengayaan.
Daftar pertama, yang disebut E2A-PBX memiliki
tertinggi Normalized skor Pengayaan (2.06). Grafik ke kanan menunjukkan hasil.
Sejak metrik dipilih untuk peringkat data diatur sesuai dengan SNR untuk
E2A-PBX1 itu bukan kejutan besar bahwa kita mendapatkan plot yang sangat jelas
untuk daftar contoh gen yang disebut E2A-PBX1.
·
Tekan daftar nr 1. Anda akan mendapatkan hasil seperti
di bawah ini.
Figure 17:
Sebuah panduan umum untuk interpretasi adalah bahwa
data membuat Anda menganalisa, berdasarkan metrik yang dipilih, menunjukkan
tingkat tertinggi kesamaan dengan daftar gen set dengan skor Pengayaan
tertinggi.
·
Pilih daftar kedua dalam tabel, yaitu chr22.
Ini akan memberikan plot yang lebih normal menunjukkan
bagaimana skor tumbuh hingga skor Pengayaan 0,28.
Figure 18:
Ada dua pilihan Ekspor:
·
Daftar: Akan mengekspor isi dari daftar gen set yang
dipilih untuk QOE. Daftar akan terlihat dalam Variable Daftar Tabel.
·
Hasil: Akan mengekspor semua plot dan daftar hasil ke
folder pilihan Anda.
Tutup GSEA Workbench untuk mempersiapkan langkah berikutnya
1.1.8 GO Browser
Untuk menunjukkan bagaimana sistem informasi biologi
seperti ontologi gen dapat meningkatkan analisis kami akan memulai GO Browser.
Anda dapat menggunakan berbagai ontologi dan asosiasi file sebagai input.
Secara default, generik ontologi GO Slim dan file Gene Asosiasi manusia
disertakan. Untuk versi terbaru dan untuk ontologi lainnya mengunjungi
www.geneontology.org14. File-file ini diperbarui terus menerus dan hasil dalam
contoh di bawah ini mungkin berbeda dari apa yang Anda alami melakukan
langkah-langkah menggunakan file yang lebih baru.
·
Hapus tanda centang pada "T-ALL" kelompok
dalam panel Sampel.
·
Dalam filter dialog statistik Multi Grup Perbandingan
dan Leukemia subtipe
·
Ubah ke plot PCA Variabel
·
Filter untuk p-nilai 1e-15. Ini akan memberi Anda 345
variabel aktif.
·
Mulai GO Browser dari View> GO Browser15.
Mencari "kinase" di jendela GO Browser. Kami
hanya memiliki satu hit, GO: 0016301, yang merupakan kategori sub dari molekul
fungsi ontologi (GO: 0003674). Dengan memilih berturut-turut dalam daftar hasil
pencarian konten dari kategori yang ditampilkan di jendela kanan atas.
Dengan memilih berturut-turut dalam daftar hasil
pencarian konten dari kategori yang ditampilkan di jendela kanan atas.
Periksa kotak centang di sebelah kanan istilah GO (GO:
0016301). Anda sekarang akan melihat 180 gen yang cocok dengan istilah yang
dipilih ditampilkan di jendela di sebelah kanan bawah. Jendela kanan bawah akan
menunjukkan jumlah semua persyaratan yang dipilih. Gen-gen ini dapat diekspor
ke Qlucore omics Explorer Daftar Variabel Tabel antarmuka.
·
Tekan tombol Ekspor untuk mengekspor daftar.
·
Hapus tanda centang GO: 0016301 dan periksa GO:
0003674
·
Tekan tombol Ekspor lagi
Beralih ke QoE jendela utama. Sekarang Anda akan
melihat dua daftar baru di Variable Daftar Tabel nama sesuai dengan istilah
pencarian GO.
Figure 19:
Kolom kedua di Variable Daftar Tabel diaktifkan opsi
untuk variabel warna sesuai dengan setiap daftar.
·
Tekan kotak warna untuk daftar pertama dan kemudian
tekan daftar warna untuk daftar kedua.
Figure 20:
Note: The first GO list includes 119 unique items
which matches precisely 93 genes in this specific data set whereas the second
list includes 685 items which matches 375 genes.
Plot akan terlihat seperti sesuatu seperti di bawah
ini, di mana semua gen termasuk dalam daftar GO function_GO_0003674 molekul
berwarna ungu dan gen dalam daftar GO_mf_kinase_activity_GO_0016301 berwarna
kuning. Jika daftar mendapat warna dengan diagonal dalam kotak warna itu
berarti bahwa daftar yang tumpang tindih. Daftar terakhir digunakan untuk
mewarnai akan menang.
Model pekerjaan ini adalah cara terbaik untuk
menggabungkan sistem informasi biologi dari daftar yang berbeda dengan
kesimpulan dari studi yang sedang berlangsung. Hal ini dimungkinkan untuk
mewarnai plot variabel ke sejumlah daftar.
Figure 21:
Catatan:
Variabel memberi warna juga pada peta panas dan plot pencar.
Untuk mempelajari variabel termasuk dalam daftar
berdasarkan dua gen ontologi itu mudah.
·
Pada Variable Daftar Tabel memeriksa kolom pertama
untuk dua daftar.
Plot akan diperbarui dan hanya mencakup gen berwarna
kuning dan ungu, akan ada 15 variabel yang aktif.
Alat tikus alat warna juga ampuh untuk memahami lebih
lanjut tentang data. Untuk menggambarkan hal ini lebih lanjut membuka
disinkronkan sampel PCA petak (Windows> New Synchronized Plot) dan kemudian
pilih untuk ubin (Windows> Tile)
·
Pilih Warna di Tool Box (tidak ada multi-). Pastikan
bahwa plot Sampel PCA aktif dan kemudian pilih (dalam Jendela Variable)
variabel dalam variabel PCA petak
Figure 22:
Anda sekarang mendapatkan Sampel berwarna sesuai
dengan tingkat ekspresi untuk gen yang dipilih untuk masing-masing sampel. Pada
contoh di bawah Anda amati bahwa data sampel berwarna.
Figure 23:
Dengan memilih variabel yang berbeda (satu per satu)
baik dalam plot PCA variabel atau dalam daftar variabel satu melihat tingkat
ekspresi gen yang dipilih untuk setiap pasien.
Sekarang kita akan menemukan gen yang berhubungan
dengan gen tertentu. Kami memilih PBX1 gen.
·
Gunakan alat pencarian untuk menemukan gen PBX1. Pilih
tombol dan masukkan PBX1 dalam dialog pencarian ketika Anda mencari di
"Gene Symbol" penjelasan.
Figure 24:
·
Select Corr. in the Tool Box
Figure 25:
·
Tekan daftar pencarian di Variable Table View. Gen PBX1
akan ditambahkan ke plot PCA variabel dan akan ditandai.
·
Dalam Box Variabel Korelasi Anda sekarang dapat
memilih tingkat korelasi dan jika Anda ingin memasukkan korelasi positif dan
negatif.
Figure 26:
·
Pilih 60% dan korelasi positif
Dalam Window Plot Variable, Anda sekarang dapat
melihat bahwa semua variabel yang memiliki korelasi lebih dari 60% dengan PBX1
terhubung dengan garis. Semua variabel aktif lainnya juga hadir. Untuk hanya
melihat variabel berkorelasi memindahkan slider varians ke kanan.
Figure 27:
1.1.9 Apa itu ANOVA dan Kapan saya harus
menggunakannya?
ANOVA (analisis varians) adalah generalisasi dari
t-tes, yang memungkinkan perbandingan lebih dari dua populasi berarti. Kami
juga dapat meminta beberapa prediktor dan mengambil kovariat ke rekening. Dua
sisi t-test identik dengan apa yang disebut satu-way ANOVA (ANOVA dengan satu
prediktor) di mana prediktor yang memiliki dua kategori. Ketika membandingkan
nilai rata-rata lebih dari dua kelompok, hipotesis nol bahwa semua mean
populasi adalah sama, dan hipotesis alternatif adalah bahwa setidaknya satu
berarti berbeda dari yang lain. Oleh karena itu, ANOVA tidak segera memberitahu
kami yang berarti yang berbeda. Selain itu, diarahkan (satu sisi) tes tidak
masuk akal ketika lebih dari dua cara dibandingkan. Untuk gambaran yang lebih
komprehensif dari model ANOVA yang berbeda, lihat dokumen "Cara
menggunakan ANOVA" yang tersedia dari www.qlucore.com.
Sebagai generalisasi dari t-test, ANOVA dibangun pada
asumsi yang sama kemerdekaan dalam kelompok, normalitas dan kesetaraan varians.
Adapun t-test, ANOVA cukup kuat melawan penyimpangan, terutama untuk ukuran
kelompok yang sama (dan nomor lebih besar dari sampel). Gambar 1 dan 2
menunjukkan bagaimana asumsi normalitas dan kesetaraan varians dapat grafis
diperiksa dalam Qlucore omics Explorer.
Figure 28:
Sebuah
variabel yang mendekati normal didistribusikan dalam setiap kelompok sampel.
Figure 29:
Sebuah
variabel yang menunjukkan varians yang sama (tapi cara yang berbeda) dalam
kelompok sampel yang berbeda.
1.1.10 Kapan harus menggunakan Penyaringan Varian?
Varians penyaringan dapat digunakan sebagai cara untuk
mengurangi jumlah variabel dalam satu set data dalam cara yang tanpa pengawasan
(yaitu, tanpa menggunakan penjelasan sampel). Dengan teknik eksperimental saat
ini sangat mudah untuk mengumpulkan data untuk sejumlah besar variabel secara
bersamaan, dan variabel umumnya tidak secara eksplisit dipilih berdasarkan
asumsi sebelumnya dari "interestingness". Oleh karena itu, dapat
dibayangkan bahwa sebagian besar variabel menambahkan apa-apa tapi suara untuk
analisis dan kami mungkin ingin menghapus variabel ini untuk menjelajahi
seluruh data secara lebih rinci. Salah satu cara untuk mengidentifikasi
variabel yang berpotensi menarik adalah dengan cara varians mereka. Sebuah
variabel yang hampir konstan di semua pengamatan memiliki varians yang rendah,
dan kita dapat menghapus variabel seperti dengan cara slider varians dalam
Statistik toolbox. Ini juga telah menyarankan bahwa varians penyaringan mungkin
berguna untuk meningkatkan kekuatan mendeteksi gen yang diekspresikan secara
berbeda dengan t-tes atau ANOVA. Alasan di balik ini adalah bahwa varians
penyaringan mengurangi jumlah variabel dan karena itu membuat koreksi untuk
beberapa pengujian (lihat pembahasan pada q-nilai di atas) kurang penghambat.
Jumlah yang sesuai varians filtering sangat bergantung pada kumpulan data dan
tujuan analisis. Jika kumpulan data belum pra-disaring sebelum dimuat ke
Qlucore omics Explorer, menyaring lebih dari setengah dari variabel
dibayangkan. Jika kumpulan data telah pra-disaring, cukup kurang varians
penyaringan mungkin diperlukan.
1.2 PCA plots
Arti dasar dari PCA plot data multidimensi di ANTRIAN
adalah bahwa titik data yang mirip juga disajikan berdekatan dalam plot yang
dihasilkan. PCA operasi ditandai dengan fitur yang mempertahankan sebanyak
informasi awalnya tersedia mungkin dalam dihasilkan plot tiga dimensi. Isi
informasi tersebut kemudian diukur dengan varians statistik dalam data ketika
menerapkan PCA.
Pada gambar di bawah, kelompok kuning terdiri dari
sampel yang mirip satu sama lain dan yang berbeda dari sampel biru:
Figure 30:
1.3 Apa arti penting dari statistik plot PCA.
PCA operasi ANTRIAN tidak membuat asumsi tentang data
Anda. Jika Anda dapat melihat struktur dan pola yang terlihat pada layar
komputer itu kemudian karena struktur yang hadir. Beberapa metode statistik
yang tersedia di QOE (seperti ANOVA) dapat menciptakan pola bahkan dari data
acak. Pola-pola ini kemudian, dengan probabilitas yang sangat tinggi, secara
statistik tidak stabil dan Anda harus melihat signifikansi statistik dari
struktur Anda menemukan. QUE dilengkapi dengan beberapa alat yang tersedia
untuk mengendalikan signifikansi statistik. Mereka termasuk lintas validasi
(meninggalkan satu atau beberapa sampel data keluar), pengacakan atau tes
permutasi. QOE juga menyediakan p-nilai dan nilai-nilai q untuk metode
statistik yang dipilih, sehingga mudah untuk memeriksa dinamis signifikansi
statistik dari struktur Anda menemukan.
1.3.1 Bisakah PCA melewatkan struktur dan pola?
PCA operasi digunakan untuk mengurangi dimensi dan
karenanya ada pada umumnya hilangnya informasi dalam presentasi tiga dimensi.
PCA operasi tetap adalah stabil dan dalam metode optimal arti tertentu untuk
pengurangan dimensi dan dengan menggunakan fleksibilitas fungsi Dinamis PCA di
QOE Anda meminimalkan risiko hilang struktur penting. Penggunaan grafik dan
metode nonlinear seperti ISOMAP tersedia di QOE juga merupakan cara untuk
meminimalkan risiko hilang informasi penting mengenai data Anda. Pada gambar di
bawah Anda dapat misalnya, dengan menggunakan grafik, melihat bahwa kelompok
hijau sebenarnya terdiri dari dua subkelompok yang berbeda. Fakta ini akan
sulit untuk membedakan tanpa dukungan dari grafik hadir dalam plot.
Bab 5
2 Penutup
2.1 Kesimpulan
Dari Paparan atau penjelasan di atas, maka penulis
dapat menyimpulkan bahwa sesuai dengan makalah “Correlation Matrix Heatmap”
kami definisikan tentag interaksi secara terus menerus antara beberapa variable
dan menjadi jalur pada analisis dan static yang dapat di tampilkan secara
grapic. Dan memahami cara menggunakan software Qlucore Omics Explorer,
instalasi dan menambah pemahaman dengan contoh kasus pada penulisan ini dalam
penerapan konsep di atas.
2.2 Saran
Menyadari bahwa penulis masih jauh dari kata sempurna,
kedepannya penulis akan lebih fokus dan details dalam menjelaskan tentang
makalah di atas dengan sumber – sumber yang lebih banyak yang tentunga dapat di
pertanggung jawabkan.
Daftar Pustaka
·
https://en.wikipedia.org/wiki/Heat_map
·
https://en.wikipedia.org/wiki/Cormac_Kinney
·
https://en.wikipedia.org/wiki/Qlucore
·
http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/heatmap
·
http://blogs.sas.com/content/sasdummy/2013/06/12/correlations-matrix-heatmap-with-sas/
·
www.cs.uic.edu/~wilkinson/Publications/heatmap.pdf
·
http://www.mathworks.com/help/bioinfo/ref/heatmap.html?requestedDomain=www.mathworks.com
·
https://labescape.com/info/about-heat-maps
·
https://www.logianalytics.com/resources/bi-encyclopedia/heat-maps/
·
http://www.fusioncharts.com/chart-primers/heat-map-chart/
MOM (minutes of meting)
- Tanggal pertemuan : 31 januari 2015
- Tempat : Kosan Onan Said (Kosan Dicka)
- Pembicaraan,
• capaian
: menulis Bab 4,5 dan daftar pustaka
• rencana
: buku selesai
• penentuan
tanggal selanjut nya : 1 februari
2016