معلومة

يعد الجين المعياري إلى edgeR / DESeq2؟

يعد الجين المعياري إلى edgeR / DESeq2؟



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

تفترض كلتا حزم التعبير التفاضلي الشائعة جدًا عدد مصفوفة الجينات الخام. هذا منطقي لأن النموذج الإحصائي يمثل عمق المكتبة. ولكن ماذا لو قمت بتطبيع التهم الخاصة بي من خلال القول ، فإن معيار ERCC RNA؟ هل سيؤثر ذلك على القوة الإحصائية؟ إيجابية كاذبة؟ لماذا لا يُنصح بالضبط بإعطاء مصفوفة عد طبيعية؟


النصيحة هي عدم استخدام ارتفاعات ERCC بشكل عام على الإطلاق بسبب الاختلافات التي يتم تقديمها بواسطة الماصات بالأحجام التي يوصون بها.

يوضح الخيط أيضًا كيفية استخدام DESeq و EdgeR مع التطبيع المفاجئ ، حيث تكون العملية أسهل بشكل ملحوظ مع DESeq ، حيث يمكنك استخدام عوامل calcSizeFactors في مصفوفة عدد القراءات المتصاعدة وحدها. باستخدام edgeR ، سيتعين عليك تمرير القيم باستخدام المعلمة lib.sizes في الوظائف المناسبة.

إذا كنت تريد استخدام التعداد الكسري من خلال limma-voom ، فيجب أن تعمل ، على ما أعتقد ؛ لقد حصلت على نتائج جيدة باستخدام voom على أعداد RSEM ، وهي كسور.


تحليل بيانات RNA-Seq في R - تحقق من الجينات المعبر عنها تفاضليًا في بياناتك!

في هذا البرنامج التعليمي ، تم استخدام ذات الحدين السالب لأداء تحليل التعبير الجيني التفاضلي في R باستخدام DESeq2 و pheatmap وحزم tidyverse. سير العمل لبيانات RNA-Seq هو:

  • Obatin ملفات تسلسل FASTQ من تسهيل التسلسل
  • تقييم جودة التسلسل يقرأ
  • إجراء محاذاة الجينوم لتحديد نشأة القراءات
  • قم بإنشاء مصفوفة العد للقراءات المحاذاة ، أي عدد القراءات المحاذاة للإكسونات لكل جين.

الملخص

خلفية

توجد عدة حزم R للكشف عن الجينات المعبر عنها تفاضليًا من بيانات RNA-Seq. تتضمن عملية التحليل ثلاث خطوات رئيسية ، وهي التطبيع وتقدير التشتت واختبار التعبير التفاضلي. يوصى بخطوات مراقبة الجودة على طول هذه العملية ولكنها ليست إلزامية ، وقد يؤدي الفشل في التحقق من خصائص مجموعة البيانات إلى نتائج زائفة. بالإضافة إلى ذلك ، لا يمكن استبدال طرق التطبيع والنماذج الإحصائية عبر الحزم دون التحولات الكافية التي لا يكون المستخدمون على دراية بها في كثير من الأحيان. وبالتالي ، هناك حاجة إلى خطوط أنابيب مخصصة للتحليل لتشمل خطوات منهجية لمراقبة الجودة ومنع الأخطاء من إساءة استخدام الأساليب المقترحة.

نتائج

SARTools هو خط أنابيب R للتحليل التفاضلي لبيانات عدد RNA-Seq. يمكنه التعامل مع التصميمات التي تتضمن شرطين أو أكثر من عامل بيولوجي واحد مع أو بدون عامل حظر (مثل تأثير دفعة أو إقران عينة). وهو مبني على DESeq2 و edgeR ويتألف من حزمة R واثنين من قوالب البرامج النصية R (لـ DESeq2 و edgeR على التوالي). من خلال ضبط عدد صغير من المعلمات وتنفيذ أحد البرامج النصية R ، يمكن للمستخدمين الوصول إلى النتائج الكاملة للتحليل ، بما في ذلك قوائم الجينات المعبر عنها تفاضليًا وتقرير HTML الذي (1) يعرض مخططات تشخيصية لمراقبة الجودة وفحص فرضيات النموذج و (2) يتتبع عملية التحليل بأكملها ، وقيم المعلمات وإصدارات حزم R المستخدمة.

الاستنتاجات

يوفر SARTools ضوابط جودة منهجية لمجموعة البيانات بالإضافة إلى مخططات التشخيص التي تساعد على ضبط معلمات النموذج. يتيح الوصول إلى المعلمات الرئيسية لـ DESeq2 و edgeR ويمنع المستخدمين غير المدربين من إساءة استخدام بعض وظائف كلتا الحزمتين. من خلال تتبع جميع معلمات عملية التحليل ، فإنها تلائم متطلبات البحث القابل للتكرار.

الاقتباس: Varet H ، Brillet-Guéguen L ، Coppée J-Y ، Dillies M-A (2016) SARTools: A DESeq2- and EdgeR-Based R Pipeline للتحليل التفاضلي الشامل لبيانات RNA-Seq. بلوس واحد 11 (6): e0157022. https://doi.org/10.1371/journal.pone.0157022

محرر: كين ميلز ، جامعة كوينز بلفاست ، المملكة المتحدة

تم الاستلام: 6 أبريل 2016 وافقت: 23 مايو 2016 نشرت: 9 يونيو 2016

حقوق النشر: © 2016 Varet et al. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License ، والذي يسمح بالاستخدام غير المقيد والتوزيع والاستنساخ في أي وسيط ، بشرط ذكر المؤلف والمصدر الأصليين.

توافر البيانات: جميع البيانات ذات الصلة متاحة على https://github.com/PF2-pasteur-fr/SARToolsPaperData.

التمويل: وقد تم دعم هذا العمل من خلال البنية التحتية لقناة France Génomique الوطنية ، والتي تم تمويلها كجزء من برنامج "Investissements d’Avenir" الذي تديره الوكالة الوطنية من أجل البحث (العقد ANR-10-INBS-09).

تضارب المصالح: وقد أعلن الباحثون إلى أن لا المصالح المتنافسة موجودة.


التهم مقابل FPKMs في RNA-seq

في معظم الأحيان ، يكون السبب في قيام الأشخاص بإجراء تسلسل الحمض النووي الريبي هو تحديد مستويات التعبير الجيني. من الناحية النظرية ، RNA-seq هي بيانات على مستوى النسبة ، ويجب أن تكون قادرًا بشكل شرعي على مقارنة الجين A في العينة 1 مقابل العينة 2 وكذلك الجين A مقابل الجين B في العينة 1.

هناك طريقتان رئيسيتان لقياس تعبير الجين ، أو نسخة ، أو أيًا كان ، في بيانات RNA-seq:

  1. العد هي ببساطة عدد القراءات المتداخلة مع ميزة معينة مثل الجين.
  2. FPKMs أو F ragments P er K ilobase من exon لكل مليون قراءة أكثر تعقيدًا. الجزء يعني جزء من الحمض النووي ، لذا فإن القراءةتين اللتين تشتملان على قراءة نهاية مقترنة تعد واحدة. يعني لكل كيلو بايت من exon أن عدد الأجزاء يتم تطبيعه بعد ذلك عن طريق القسمة على الطول الإجمالي لجميع exons في الجين (أو النسخة). هذا القليل من السحر يجعل من الممكن مقارنة الجين أ مع الجين ب حتى لو كانا من أطوال مختلفة. لكل مليون قراءة تعني أن هذه القيمة يتم تطبيعها مقابل حجم المكتبة. هذا القليل من السحر يجعل من الممكن مقارنة الجين A في العينة 1 بالعينة 2 حتى لو كانت مكتبة العينة 1 & # 8242s RNA-seq تحتوي على 60 مليون زوج من القراءات ومكتبة العينة 2 & # 8242s تحتوي فقط على 30 مليون زوج من القراءات.

(في الواقع ، كما سيظهر هذا المنشور ، هناك اختلافات بين الطريقتين أكثر من هذه & # 8211 I & # 8217 ستعود إلى هذا في الخاتمة.)

في رأيي ، يبدو التطبيع من خلال الطول الخارجي وحجم المكتبة أمرًا لا يحتاج إلى تفكير ، لذلك أستخدم FPKM ولم أفهم أبدًا سبب استخدام أي شخص للأعداد. ولكن إذا كنت تريد حقًا الدفاع عن تحليلك ، فأنت بحاجة إلى أن تكون قادرًا على الإجابة على أي سؤال بـ & # 8220Yes ، لقد جربت ذلك وهنا & # 8217s ما وجدته ، & # 8221 ولذا أردت إعادة تحليلي باستخدام التهم. في هذه الأثناء ، أخبرني أحد الزملاء الذي & # 8217s في التهم أن FPKMs تطبق الكثير من التطبيع ، مما يلغي بعض الاختلاف بين عينة وأخرى. لماذا يكون هذا هو الحال؟ قررت ما دمت سأكرر تحليلاتي باستخدام التعدادات ، فقد أقوم أيضًا بإجراء مقارنة جنبًا إلى جنب مع FPKM من أجل فهم كيفية اختلاف السلوك حقًا.

لمقارنة الاثنين ، التفت إلى مجموعة بيانات go-to RNA-seq: Human BodyMap 2.0. لأغراض هذا التمرين ، سألقي & # 8217 إلقاء نظرة على النصوص المعروفة فقط.

كيفية حساب FPKMs

كيفية حساب التهم

يمكنك حساب الأعداد باستخدام bedtools multicov ، لكنك تحتاج إلى ملف شرح نصي بتنسيق BED لإخبار أدوات bedtools بمكان البحث & # 8211 على عكس أزرار Cufflinks مع الإعداد -N 1 ، لن يخرج multicov ويكتشف نصوصًا جديدة لك. لجعل الأعداد قابلة للمقارنة مباشرة مع FPKMs التي حسبتها سابقًا ، أردت استخدام ملف شرح النص نفسه وتحويله من تنسيق GTF إلى تنسيق BED.

فورًا ، تصبح الأمور معقدة. لقد لاحظت أن ملف التعليق التوضيحي للنص الأصلي يحتوي على صف واحد لكل مجموعة من نسخة واحدة مع تسلسل exon أو ترميز أو بدء أو إيقاف كودون. ضع في اعتبارك PRNP ، الذي يحتوي على اثنين فقط من exons (exon 1 هو 5 & # 8242 UTR و exon 2 هو تسلسل الترميز و 3 & # 8242UTR) وفي الحقيقة نسخة واحدة فقط & # 8211 لا توجد اختلافات الربط الرئيسية I & # 8217m على دراية بها. يحتوي هذا الملف على 18 صفًا.

هذا & # 8217s لأن 4 إصدارات مميزة من PRNP جعلتها بطريقة ما في قاعدة بيانات Ensembl & # 8217s كنصوص مميزة & # 8211 تحتوي بعضها بشكل صارخ على إحداثيات تسلسل تشفير خاطئة (ينتهي تسلسل الترميز الحقيقي في chr20: 4680625 في hg19).

على أي حال ، إذا كان & # 8217s سيئًا لـ PRNP ، فيمكنك تخيل عدد الصفوف الموجودة للجينات التي تحتوي بشكل شرعي على الكثير من متغيرات التضفير:

هذا يعرض لنا مشكلة. الآن ، إذا كنا مطلوب مهمًا لكل exon محتمل ، يمكننا فقط استخدام أداة gtf2bed في bedops والتي ستحول ملف GTF الأصلي إلى ملف BED ، سطرًا بسطر:

5 دقائق). ولكن من المرجح أن تكون وحدة التحليل لدينا عبارة عن نسخ أو رموز جينية. إذا أردنا إجراء عمليات التعداد بواسطة exon ثم تجميعها حسب النسخة أو رمز الجين وأخذ مجموع عدد exon ، فنحن & # 8217d نحسب أربع مرات لكل exon في PRNP ونعد كل exon في TTN عدة مرات أكثر من ذلك! ما نحتاجه هو تحويل ملف GTF إلى صف واحد لكل ، على سبيل المثال ، رمز الجين ، إذا كان رمز الجين هو وحدة التحليل الخاصة بنا.

اتضح أن Erik Aronesty & # 8216s ea-utils تحتوي على نص Perl للقيام بذلك. تم تسميته gtf2bed تمامًا مثل أداة bedops أعلاه ، لذا من أجل الوضوح ، قمت بإعادة تسميته gtf2bed_2.pl. لتنزيله وتشغيله:

1 دقيقة. (تحذير: إذا كنت & # 8217re تستخدم هذا المنشور كخط أنابيب ، فلاحظ أن استخدام ملف BED الناتج دون تعديل يمكن أن يعطي نتائج غير منطقية للجينات المدرجة في مواقع متعددة & # 8211 انظر مناقشة SNORD60 لاحقًا في هذا المنشور).

إذا فتحت ملف السرير الناتج ، فسترى أن الأعمدة الثلاثة الأولى هي ببساطة الكروموسوم وموقع بدء النسخ (الأقدم) وموقع نهاية النسخ (الأحدث) للجين & # 8211 أو بعبارة أخرى ، اتحاد جميع النسخ مواقع في هذا الجين على جميع النصوص الممكنة.

الآن ، يلاحظ gtf2bed_2.pl تنسيق BED12 المناسب جدًا وبالتالي هل الاحتفاظ بمعلومات بنية exon في شكل أعمدة blockSizes و blockStarts. لكن مولتيكوف لا يقرأ أي شيء عدا الأعمدة الثلاثة الأولى. لذلك عند الاعتماد على هذا الملف الذي أنشأناه للتو ، & # 8217ll ستحسب الإنترونات والإكسونات على حد سواء. بقدر ما أستطيع أن أقول من خلال السؤال ، هذه هي الطريقة التي يقوم بها الجميع بحساب RNA-seq.

قارن هذا مع FPKMs ، حيث سيحسب Cufflinks القراءات exonic فقط وسيتم تطبيعه بواسطة جين & # 8217s (أو نسخة & # 8217s) إجمالي طول exon ، إذا قمت بالعد (على الأقل وفقًا لخط الأنابيب هذا / ما لم تفعل أشياء أخرى ، مربي الحيوانات) أنت بما في ذلك قراءات intronic. لذا فإن التهم & # 8211 على عكس FPKMs & # 8211 سوف تتأثر بمقدار التلوث قبل mRNA (وبالتالي التغطية intronic) لديك في مكتباتك.

مع كل ما قيل ، قمت بعد ذلك بتشغيل multicov ، مثل:

استغرق الأمر حوالي 50 ساعة من وقت وحدة المعالجة المركزية.

بالمناسبة ، إنشاء قائمة ملفات BAM لهذا الأمر أمر مزعج هذه المرة فعلت ذلك باستخدام echo -n:

سيحتوي الملف الناتج على ملف السرير الأصلي المكون من 12 عمودًا والذي تم إنشاؤه بواسطة gtf2bed_2.pl بالإضافة إلى 16 عمودًا إضافيًا في هذه الحالة لكل من الـ 16 BAM التي اتصلت بها على استخدام multicov.

زوجان من المتغيرات المشتركة

نظرًا لأن FPKMs ، من الناحية النظرية ، يتم حسابها فقط من خلال حجم المكتبة وحجم النص ، فقد اعتقدت أنه يجب أن يكون لدي هاتين القيمتين في متناول اليد لهذا التحليل أيضًا. لقد حسبت حجم المكتبة كعدد القراءات في كل BAM مع عرض samtools -c:

الأمر الذي يستغرق وقتًا طويلاً بشكل مدهش (

30 دقيقة / بام) ، ومن هنا تأتي الحاجة لتقديم كل واحدة كوظيفة.

المتغير المشترك الآخر الذي أردته هو طول كل جين. لكن أي الطول ، تسأل؟ باستخدام ملف BED الذي أنشأته للتو ، من السهل & # 8217s الحصول على الطول من أقرب موقع لبدء النسخ إلى أحدث موقع نهائي ممكن للنسخ:

إذا كنت تريد الطول الخارجي ، فهذا أكثر تعقيدًا قليلاً. من الواضح أن Cufflinks تعرف هذه المعلومات بشكل ما لأنها & # 8217s مستخدمة للتطبيع ، لذلك نظرت مرة أخرى إلى ملف isoforms.fpkm_tracking من Cufflinks ورأيت أنه يحتوي بالفعل على قيمة طول لكل نص. يمكنك سحب ذلك على النحو التالي:

لكن الجينات fpkm_tracking لا تحتوي على هذا بالنسبة للجينات ، ويفترض أن اختيار طول واحد كـ & # 8220 & # 8221 طول الجين مع نسخ متعددة أمر محرج. من خلال دمج بعض البرامج النصية الأكثر روعة ودمج أدوات السرير ، يمكنك الحصول على طول اتحاد جميع exons الممكنة في الجين ، نوعًا مشابهًا لملف gene.lengths.txt الذي أنشأناه للتو ، وهو طول اتحاد جميع النصوص الممكنة. لكنني ربحت & # 8217t بالضرورة بحاجة إلى ذلك اليوم.

من أجل الجدل ، قمت أيضًا بحساب متوسط ​​الأطوال المستقيمة لكل رمز جيني ، على الرغم من أن هذا هو الخام. أولاً التقطت رموز الجينات وطولها في باش:

ثم ملف SQL في R:

مع التهم ، FPKMs والمتغيرات المشتركة في متناول يدي شرعت في فهم كيف ولماذا تختلف هذه التدابير عن بعضها البعض.

أولاً ، عناصر الإعداد المملة:

السؤال الأساسي: هل الأعداد و FPKM مترابطان؟ أتمنى ذلك بالتأكيد! يمكننا أن نسأل هذا بطريقتين. أولاً ، دع & # 8217s يطرح هذا السؤال عبر جميع تركيبات الأنسجة ذات الرموز الجينية & # 8211.

هذا غريب. في الفضاء الخطي (ارتباط بيرسون & # 8217) ، تكون التهم و FPKM مترابطة بشكل كبير ولكن بالكاد مرتبطة ، مع rho = .006. في فضاء الرتبة (ارتباط سبيرمان & # 8217s) هم & # 8217 مرتبطين بشدة ، rho = .81. ماذا يمكن أن هذه البيانات ربما بحث مثل؟

هذا متطرف للغاية: من وجهة النظر هذه يبدو أن هناك نوعين أساسيين من الجينات: الجينات التي لها بعض التهم

0 FPKMs ، وتلك التي لديها بعض FPKMs لكن

0 تهم. من المدهش أننا رأينا أي ارتباط على الإطلاق.

هذا صحيح حتى إذا أخذنا متوسط ​​القيمة لكل جين عبر الأنسجة المتعددة المذكورة هنا:

أكثر القيم المتطرفة تطرفاً هما IGHJ6 و SNORD60 ، لذلك بحثت عنهما بشكل فردي.

يبلغ طول IGHJ6 61 نقطة أساس فقط ، عند 14: 106،329،408-106،329،468 ، لذلك لا عجب أنه يمكن أن يكون له عدد قليل ولكن عدد FPKM مرتفع. SNORD60 ، من ناحية أخرى ، هو أيضا جين قصير ، snoRNA من 83 نقطة أساس فقط في chr16: 2،205،024-2،205،106. إذن ما هي صفقة SNORD60 & # 8242؟

نظرت أولاً إلى البيانات الأولية:

13-21 مليون قراءة ولكن صفر FPKMs في العديد من الأنسجة. لم يستغرق الأمر & # 8217 وقتًا طويلاً للعثور على مصدر المشكلة: في ملف BED الذي استخدمته لإنشاء التهم ، يبلغ طول SNORD60 204 ميغا بايت:

والذي تبين أنه في ملف GTF الأصلي تم إدراجه بثلاثة إكسونات في مواقع جينومية مختلفة تمامًا.

لذلك عندما قمت بتشغيل gtf2bed_2.pl لتحويل GTF هذا إلى ملف BED ، فقد اختار ببساطة أدنى قاعدة بداية وأعلى قاعدة نهاية كنقاط نهاية للنسخة.

ثبت أنه من الصعب بشكل مدهش العثور على طريقة ما لتصفية مثل هذه الحالات. الرسم البياني لأطوال الجينات في ملف BED الخاص بي متطرف تمامًا مثل المؤامرات السابقة:

بحثًا عن بعض القطع لتصفية الجينات التي من الواضح أن طولها خطأ ، بحثت على Googed & # 8220 أطول جين بشري & # 8221 ووجدت DMD ، الذي يبلغ حجمه 2.3 ميجا بايت تقريبًا. يبدو الرسم البياني للجينات ≤ 2.3 ميجا بايت أفضل قليلاً من الرسم البياني الأول:

هذا أقرب إلى التوزيع الأسي الذي أتوقعه ، على الرغم من أنني أظن أنه لا تزال هناك بعض الجينات الطويلة الخاطئة في هذا التوزيع أيضًا.

إذا كانت هذه المجموعة الفرعية ، من الجينات & lt 2.3 ميغابايت ، أكثر عقلانية وقضت على الأقل على بعض أكثر الأخطاء شنيعة ، كنت آمل أنه سيكون من الممكن شرح الكثير من التباين في التهم مقابل FPKMs ضمن هذه المجموعة الفرعية:

لكن لا ، نموذج خطي من FPKMs

يعطي التهم قيمة R ^ 2 تبلغ 0.008 فقط. تضمين طول الجين في النموذج لم يساعد & # 8217t:

وقد ساعدت قسمة الأعداد بشكل صريح على طول الجين قليلاً فقط ، مما جعلنا يصل إلى R ^ 2 من .016:

تتضمن مجموعة البيانات هذه 52686 رمزًا جينيًا لـ Ensembl ، لذلك تساءلت عما إذا كان من الممكن أن تكون البيانات أفضل إذا نظرنا فقط في 23705 hg19 جينات RefSeq. ساعد هذا قليلاً فقط ، حيث وصلنا إلى R ^ 2 من .026:

وعندما عدت إلى جميع تركيبات الأنسجة الجينية مع مجموعة البيانات المحدودة هذه ، حصلت أخيرًا على قيمة rho 0.26 لعلاقة Pearson & # 8217s ، و 0.33 لـ Spearman & # 8217s.

لا يزال هذا ليس ارتباطًا وثيقًا كما كنت أتمنى ، مع الأخذ في الاعتبار أنه من المفترض أن يقيس هذان المقياسان على نطاق واسع نفس الشيء & # 8211 التعبير الجيني & # 8211 في نفس مجموعة البيانات بالضبط. للمقارنة ، عندما أقوم بتشغيل خط أنابيب QC للتعبير الجيني القياسي على بيانات RNA-seq لعينات مختلفة ولكن تم استدعاؤها باستخدام نفس خط الأنابيب ، غالبًا ما أجد علاقة Pearson & # 8217s بين عينات من .85 أو أفضل. بينما هنا ، للحصول على نفس البيانات التي يتم استدعاؤها باستخدام خطي أنابيب مختلفين ، أحصل على Pearson & # 8217s من 0.26 فقط. ربما يكون هذا تذكيرًا مؤسفًا آخر لمدى عدم إمكانية إنتاج نتائج التعبير الجيني. تقدم التقنيات المستخدمة (بما في ذلك خطوط أنابيب المعلومات الحيوية المختلفة) تنوعًا أكبر مما هو موجود في العينات الأساسية نفسها.

لقد اكتشفت أن أحد التفسيرات المحتملة قد يكون الفرق بين الطول الخارجي وطول الجين الكلي. يتم تقييم التهم هنا على طول الجين الإجمالي ، ثم قسمتهم على طول الجين الكلي ، في حين يتم تقييم FPKM على exons وتطبيعها من خلال الطول الخارجي. ضمن هذه المجموعة الجيدة نسبيًا من الجينات 2.3 ميجا بايت وفي RefSeq ، لا يزال الارتباط بين الطول الإجمالي والطول الخارجي 0.19 فقط في الفضاء الخطي و 0.49 في مساحة الرتبة:

مما يشير إلى أن جزءًا على الأقل من المشكلة هنا هو أن الأعداد ، والتي تشمل exons و introns ، تقيس شيئًا مختلفًا تمامًا عن FPKMs ، والتي تتضمن exons فقط.

لذلك يبدو أن هذين المقياسين يقيسان شيئًا مختلفًا ويحصلان على إجابات مختلفة (كما يتضح من الارتباط المنخفض بينهما). يشير ذلك إلى أن إحدى الطريقتين على الأكثر & # 8211 التهم و FPKMs & # 8211 مناسبة لمقارنة الجين A مع الجين B. على الأقل على مستوى النسبة ، أي. يمكن القول ، نظرًا لأن ارتباط Spearman & # 8217s أقوى ، يمكن أن يكون كلاهما على ما يرام لتحليلات المستوى الترتيبي.

هذا & # 8217s مجرد مقارنة بين الجين أ والجين ب. ولكن غالبًا ما تكون الإجابة التي نبحث عنها في تحليلاتنا هي العثور على الجينات التي يرتبط مستوى تعبيرها ببعض المتغيرات ذات الأهمية & # 8211 على سبيل المثال ، النمط الجيني ، العلاج الدوائي ، أو نقطة زمنية. ستكون هذه النتائج قابلة للتكرار بين التهم و FPKMs فقط إلى الحد الذي يتم فيه حساب عدد FPKM لكل جين فردي مرتبط عبر العينات. في هذه الحالة ، فإن & # 8220samples & # 8221 هي 16 منديلًا مختلفًا في Human BodyMap 2.0. لتقييم مدى إمكانية استنساخ مستوى كل جين عبر الأنسجة المختلفة ، قمت بعمل & # 8220 بركان مؤامرة ، & # 8221 أولاً ، من ارتباطات بيرسون & # 8217:

النتائج أفضل بكثير مما توقعت:

ارتباط بيرسون ٪ من الجينات
موجب (p & lt .05) 83%
لا شيء (p & gt .05) 6%
سلبي (p & lt .05) 0.01%
غير متاح * 11%

* تنتج قيم NA من الصفوف حيث تحتوي جميع الأنسجة إما على 0 عدد أو تحتوي جميعها على 0 FPKMs ، وبالتالي فشل اختبار الارتباط.

من المثير للدهشة ، عندما أعدت تشغيل هذا باستخدام Spearman & # 8217 ، كانت النتائج متطابقة تقريبًا (كانت جميع الأرقام في الجدول أعلاه في حدود جزء بسيط من نسبة مئوية).

لذلك بالنسبة لمعظم الجينات ، يكون الفرق بين العينات المختلفة ومستويات التعبير عن هذا الجين # 8217 قابلاً للتكرار اسميًا على الأقل بين المقياسين المذكورين هنا: الأعداد و FPKM. ومع ذلك ، أتردد في تخصيص أهمية كبيرة لهذه النتيجة لأن ما أستخدمه هنا كمثال لمجموعة البيانات الخاصة بي هو تعبير عبر مختلف مناديل، على عكس الاختلاف فرادى. الاختلافات في التعبير الجيني بين الأنسجة كبيرة جدًا وأساسية جدًا في علم الأحياء ، وأتوقع أن تكون الاختلافات بين الأفراد أكثر دقة. ما إذا كانت نفس الاختلافات بين الأفراد تظهر في التهم كما تظهر في FPKMs ، لا يمكنني القول في هذا المثال & # 8217.

الاستنتاجات

يشير الاسم & # 8220FPKM & # 8221 & # 8211 شظايا لكل كيلو قاعدة من exon لكل مليون قراءة & # 8211 إلى أن FPKM هو مقياس للتعبير الجيني الذي تم تطبيعه بواسطة الطول exonic وحجم المكتبة ، على عكس الأعداد الأولية. ومع ذلك ، في سياق هذا المثال ، أدركت أن هناك العديد من الاختلافات الأخرى بين التهم و FPKM:

  • عندما تتداخل القراءة مع تعريفات exon المتعددة أو تعريفات نسخ متعددة ، تتخذ أزرار Cufflinks قرارًا بشأن النص (النصوص) الذي سيتم تعيين القراءة إليه عند حساب FPKMs. حساب الأعداد ، على الأقل في خط الأنابيب البسيط I & # 8217 المقدم هنا ، ليس متطورًا للغاية.
  • نتيجة لذلك ، عادة ما يتم تقييم التهم فقط عن طريق رمز الجين. إذا تم تقييمها عن طريق النص ، فسيتم احتساب العديد من القراءات مرتين (أو حتى يتم عدها عشرات المرات) لأن العديد من الجينات لديها العديد من النسخ. بالمقارنة ، هناك عدد قليل نسبيًا من المواقع الجينومية حيث يتداخل جينان متميزان.
  • FPKMs تحسب فقط المحاذاة الخارجية ، التهم (على الأقل خط الأنابيب هذا) تشمل الإنترونات. الطول الإجمالي للجين & # 8217s (بما في ذلك الإنترونات) مرتبط بشكل متواضع فقط مع طوله الخارجي (rho = .19) ، وهذا يحدث فرقًا كبيرًا.
  • خطوط الأنابيب المولدة للعد ليست قادرة بشكل عام على اكتشاف النسخ. بدلاً من ذلك ، يتعين عليك إطعامهم قائمة بالمواقع الجينومية ذات الجينات المعروفة (مع FPKMs هذا اختياري). من المهم أن نكون حذرين من أن دمج النصوص في صف واحد لكل جين لا يؤدي إلى نتائج غير منطقية كما رأينا لـ SNORD60 أعلاه.

يبدو أن كل هذه الاختلافات تساهم في تفسير سبب وجود FPKMs والأعداد التي اتصلت بها هنا & # 8211 على نفس مجموعة البيانات بالضبط & # 8211 لها علاقة قليلة جدًا مع بعضها البعض (R ^ 2 & lt .01 حتى بعد إزالة القيم المتطرفة لطول الجين ). على الرغم من ذلك ، فإن FPKMs والتهم لأي جين واحد قد يكون أكثر قابلية للتكاثر إلى حد ما ، على الرغم من أن هذا التحليل اعتبر أنسجة مختلفة (لها اختلافات هائلة في التعبير الجيني) وليس أفرادًا مختلفين (لديهم اختلافات طفيفة في التعبير الجيني).

نظرًا لأن التهم و FPKM يبدو أنهما يقيسان أشياء مختلفة تمامًا ، فإنه & # 8217s قيد المناقشة وهو القياس الأكثر صحة. أنا & # 8217 سأضع نفسي هناك وأجادل قليلاً من أجل FPKMs. يتم إثراء مكتبات mRNA-seq لـ mRNAs ، عادةً من خلال اختيار polyA ، وبالتالي نأمل في القضاء على معظم التغطية intronic. نظرًا لأنك & # 8217re تستخدم طريقة معملية على وجه التحديد للحصول على mRNAs فقط ، يجب أن يتطابق خط الأنابيب الخاص بك مع ذلك وأن يعد فقط exons. من الواضح أن FPKMs تمثل أيضًا طريقة أكثر تعقيدًا تتضمن تخصيص القراءات لنصوص معينة وتطبيع الطول الخارجي وحجم المكتبة ، وكلها أشياء جيدة. & # 8217t سمعت أي شخص ينكر هذه الحجة التي سمعتها عن التهم هي أنها & # 8217 قياسًا مختلفًا قد يكون له مزيد من التباين وقوة أكبر لأشياء معينة. لكن لا شيء رأيته هنا أقنعني بأن هذا التباين الإضافي يعكس أي شيء ذي معنى قد ترغب في تحليله.

ومع ذلك ، فإن حافزي الأصلي لهذا المنشور & # 8211 تريد دائمًا إجراء التحليل في كلا الاتجاهين حتى تتمكن من الإجابة على أي أسئلة ولا يزال # 8211 قائمًا.

حول إريك فالاب مينيكيل

Eric Vallabh Minikel في مهمة مستمرة مدى الحياة للوقاية من مرض البريون. وهو عالم في معهد برود في معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد.


المواد والأساليب

في هذا القسم ، نصف طرق التطبيع المستخدمة في دراستنا وكذلك المعايير المحددة المستخدمة في المقارنة. نناقش أيضًا دراسة TCGA ودراسة المحاكاة المستخدمة لتقييم الأساليب. درسنا آثار طرق التطبيع المختلفة على تحليل التعبير التفاضلي باستخدام ثلاثة تدفقات عمل تحليلية (رسم بياني 1). هنا يقارن سير العمل 1 و 2 تأثير أساليب تسوية حجم المكتبة على تحليل التعبير التفاضلي ، بينما يقارن سير العمل 3 طرقًا مختلفة لتقدير القطع الأثرية الكامنة متبوعة بالتطبيع عبر العينة لهذه العوامل غير المعروفة ، ويأخذ أيضًا في الاعتبار تأثير عدم احتساب الخسارة من درجات الحرية بسبب التطبيع لتحليل التعبير التفاضلي. ملاحظة يتم استخدام سير العمل من 1 إلى 3 بواسطة دراسة TCGA لعنق الرحم ، وبالنسبة لدراسة المحاكاة ، يتم أخذ سير العمل 3 فقط في الاعتبار.

استخدام مجموعة بيانات CESC لمقارنة تأثير أساليب تسوية حجم المكتبة على تحليل التعبير التفاضلي باستخدام سير العمل 1 (تحتوي مصفوفة التصميم على عامل الاهتمام الأساسي) وسير العمل 2 (تحتوي مصفوفة التصميم على معرف الدُفعة جنبًا إلى جنب مع عامل الاهتمام الأساسي). يقارن سير العمل 3 الطرق المختلفة لتقدير القطع الأثرية الكامنة متبوعة بتطبيع العينة لهذه العوامل غير المعروفة ، ويأخذ في الاعتبار تأثير عدم احتساب فقدان درجات الحرية بسبب التطبيع لتحليل التعبير التفاضلي باستخدام كل من مجموعة بيانات CESC وبيانات المحاكاة. لكل من بيانات المحاكاة وبيانات CESC ، نظرنا في طريقتين لتحديد جينات DE (أي سير العمل 3): (الجزء 1) التحليل على أساس ما بعد التطبيع ، و (الجزء 2) اكتمل تطبيع تأثيرات الدُفعات من خلال مصفوفة التصميم التي أيضًا يتضمن المتغير الأساسي للفائدة. لاحظ أنه في إطار سير العمل 3 ، لم يتم مراعاة طريقة تسوية UQ للبيانات المحاكاة ، كما أنه لا توجد أي أداة فنية معروفة (على سبيل المثال ، معرّف الدُفعة).

تطبيع طول الجينات

التحيز التقني الذي لم يتم ملاحظته مع بيانات المصفوفة الدقيقة ولكن لوحظ في إكمال دراسات RNA-Seq هو تأثير طول الجين على تقدير وفرة الجينات. على وجه الخصوص ، سيكون للجينات الأكبر عدد قراءة أعلى حتمًا مقارنة بالجينات الأصغر نظرًا للاختلاف في أطوال الجينات أو أحجامها [15]. غالبًا ما تكون إحدى الطرق لتصحيح هذا التحيز هي استخدام RPKM / FPKM (يقرأ / شظايا لكل كيلو قاعدة لكل مليون قراءة مخططة) [15،29،30]. هناك طريقة أخرى لضبط طول الجين وهي طريقة TPM (النصوص لكل مليون) ، والتي تأخذ في الاعتبار كلاً من طول الجين وتصحيحات طول قراءة التسلسل ، ومع ذلك ، لا يزال من الممكن أن تعاني من بعض التحيزات مثل عمق التسلسل والتحف الفنية الكامنة [10 ، 24]. ERPKM هو تحسين لـ RPKM يستبدل طول الجين بطول قراءة فعال (أي طول الجين - طول القراءة + 1) [23]. تعمل هذه الأساليب على إعادة قياس عدد الجينات لتصحيح الاختلافات في طول الجين ، كما هو موضح في S1A التين.

تعتمد كل هذه الطرق على مناهج التطبيع بناءً على العدد الإجمالي أو الفعال ، وتميل إلى الأداء الضعيف عندما تحتوي العينات على توزيعات نسخ غير متجانسة [12 ، 31]. يمكن أن تعطي حسابات القياس حسب طول الجين تقديرات متحيزة للتعبير التفاضلي ولا تتم إزالة الارتباط الإيجابي الواضح بين طول الجين وعدد الجينات تمامًا عن طريق تطبيق تطبيع طول الجين [10،12،30،31]. ومع ذلك ، فإن قيم TPM و RPKM / FPKM مناسبة للاستخدام إذا كان الهدف هو مقارنة مستويات التعبير بين الجينات (على سبيل المثال ، عبر مقارنة الجينات) ، يحتاج تحليل التعبير التفاضلي إلى ضرورة مقارنة مستويات التعبير عبر العينات [15 ، 24] .

تطبيع حجم المكتبة

أحد مصادر الاختلاف بين العينات هو الاختلاف في حجم المكتبة ، حيث يكون حجم المكتبة هو العدد الإجمالي للقراءات التي تم إنشاؤها لعينة معينة. يمكن أن يرجع الاختلاف في حجم المكتبة إلى العديد من العوامل ، بما في ذلك الاختلافات في تعدد إرسال العينات (تخصيص العينات إلى الممرات في خلية التدفق) أو الاختلافات العالمية في مستويات التعبير الجيني (S1B الشكل). الهدف من تسوية حجم المكتبة هو جعل أحجام المكتبة قابلة للمقارنة عن طريق قياس أعداد القراءة الأولية في كل عينة بواسطة عامل واحد خاص بالعينة يعكس حجم مكتبتها. هناك ثلاث طرق شائعة الاستخدام: الربع العلوي (UQ) والمتوسط ​​المشذب لقيم M (TMM) وتعبير السجل النسبي (RLE).

  • الربع العلوي (UQ): في ظل طريقة التطبيع هذه ، بعد إزالة الجينات التي لا تحتوي على عدد قراءة صفري لجميع العينات ، يتم تقسيم تعداد الجينات المتبقية على الربع الأعلى من الأعداد المختلفة عن الصفر في حساب عوامل التطبيع المرتبطة بالعينات ومضروبة في متوسط ​​الربع الأعلى عبر جميع عينات مجموعة البيانات [12]. يتم تنفيذ طريقة التطبيع هذه في EDASeq و حافة حزم الموصلات الحيوية [32،33].
  • المتوسط ​​المشذب لقيم M (TMM): تعتمد طريقة التطبيع هذه على فرضية أن معظم الجينات لا يتم التعبير عنها بشكل تفاضلي (DE). لكل عينة ، يتم حساب عامل TMM بينما تعتبر عينة واحدة كعينة مرجعية والعينة الأخرى كعينات اختبار. لكل عينة اختبار ، بعد استبعاد الجينات الأكثر تعبيرًا والجينات ذات نسب السجل الأكبر ، يتم حساب TMM على أنه المتوسط ​​المرجح لنسب السجل بين هذا الاختبار والمرجع. بسبب فرضية DE المنخفضة ، يجب أن يكون TMM قريبًا من 1. إذا لم يكن كذلك ، فإن قيمته توفر تقديرًا لمعامل التصحيح الذي يجب تطبيقه على أحجام المكتبة [21]. يتم تنفيذ طريقة التطبيع هذه في حافة حزمة الموصل الحيوي كطريقة تطبيع افتراضية [33].
  • تعبير السجل النسبي (RLE): على غرار TMM ، تعتمد طريقة التطبيع هذه على فرضية أن معظم الجينات ليست DE. بالنسبة لعينة معينة ، يتم حساب عامل التحجيم RLE كمتوسط ​​النسبة ، لكل جين ، لعدد قراءته على الوسط الهندسي عبر جميع العينات. بافتراض أن معظم الجينات ليست DE ، يتم استخدام متوسط ​​النسبة لعينة معينة كعامل تصحيح لجميع أعداد القراءة لتحقيق هذه الفرضية [34]. يتم تضمين طريقة التطبيع هذه في تصميم و تصميم 2 حزم الموصلات الحيوية [34،35].

عبر عينة التطبيع

نظرًا لأن طرق تطبيع حجم المكتبة تصحح في الغالب لعمق التسلسل وتفشل في التكيف مع الاختلافات التقنية الأخرى ، فقد تم اقتراح طرق تطبيع العينة لتصحيح القطع الفنية الأخرى لتحسين جودة البيانات والقدرة على اكتشاف الجينات ذات الصلة بيولوجيًا. ومع ذلك ، فإن مثل هذه المصادر التقنية للتباين تصبح إشكالية للتعامل معها عندما تكون مرتبطة أو مختلطة مع عامل بيولوجي أساسي مهم ، وبالتالي فإن التصميم التجريبي الجيد ضروري عند إكمال دراسات HTS. وبالتالي ، عند استكمال تطبيع المصنوعات الفنية ، غالبًا ما نفترض أن العامل الأساسي محل الاهتمام مستقل عن جميع القطع الأثرية [16 ، 17 ، 25]. بالإضافة إلى ذلك ، لا يتم تسجيل العديد من المصادر المحتملة للاختلافات التقنية أو أنها غير معروفة للباحث. لذلك ، بالإضافة إلى تطبيع المصنوعات الفنية المعروفة ، هناك ما يبرر أيضًا التقييم والتعديل للمتغيرات المحتملة غير المعروفة أو الكامنة [18].

الأداة الفنية المعروفة

على النقيض من طرق النمذجة الأكثر تعقيدًا ، فإن النهج الذي يتضمن التعديل المباشر للقطع الفنية المعروفة داخل النموذج الإحصائي المناسب (على سبيل المثال ، نماذج الانحدار الخطي). كمثال ، يمكن تضمين نموذج مع العوامل البيولوجية الأولية ذات الأهمية في مصفوفة التصميم جنبًا إلى جنب مع المصنوعات الفنية المعروفة ، والتي قد تحسن دقة المقارنات ذات الأهمية [16 ، 36]. بالإضافة إلى ذلك ، فإن بعض طرق التطبيع المقترحة ليست قوية بالنسبة للقيم المتطرفة في أحجام العينات الصغيرة ، حيث يُشار إلى طريقة Bayes التجريبية المرنة باسم قتال، لتوفير تعديلات تأثير دفعة أقوى مع أحجام عينات صغيرة [26،27]. ومع ذلك ، فإن قتال يضع النهج تركيزًا أقل على النموذج البيولوجي ويقلل في الغالب من التباين العالمي حتى بدون تحديد نموذج بيولوجي. بالإضافة إلى ذلك ، فإن قتال يستخدم النهج طريقة Bayes التجريبية لتجنب الإفراط في تصحيح القطع الفنية المعروفة ، وهو أمر بالغ الأهمية للاستخدام مع دفعات صغيرة (أو حجم العينة).

قطعة أثرية غير معروفة

في الآونة الأخيرة ، تم تطوير طرق التطبيع لتقييم وإزالة الاختلافات التقنية غير المعروفة من خلال تقدير العوامل الكامنة لالتقاط مصادر التباين هذه. تعتمد العديد من هذه الطرق على تحليل القيمة المفرد (SVD) أو بعض تقنيات تحليل العوامل الأخرى لتحديد التباين غير المرغوب فيه مباشرةً من البيانات. إحدى المشكلات المتعلقة بتطبيق هذه الأساليب هي صعوبة التمييز بين الاختلاف التقني غير المرغوب فيه والعوامل البيولوجية ذات الأهمية. ومن ثم ، تم اقتراح طريقة إزالة التباين غير المرغوب فيه (RUV) للتكيف مع الاختلافات التقنية غير المعروفة عن طريق إجراء تحليل عامل على جينات التحكم السلبية (أي ، الجينات المعروفة بأنها ليست مرتبطة بعامل الاهتمام الأساسي) [17 ، 37]. Therefore, variations in the expression levels of these genes can be assumed to be unwanted variations. Housekeeping genes [38] or spike-in controls [39] are the examples of negative controls. However, RUV method does not need the negative control genes or samples [17]. Other commonly used methods to address this problem in identifying the unknown technical variations are the surrogate variable analysis (SVA) [18] and principal component analysis (PCA) [40]. It should be noted that in the case of RUV, SVA and PCA methods, it is possible that some of the estimated latent factors are not technical artifacts but rather represent true biology presented in the data. Thus, it is important to adjust for any known biological factors of interest and known technical artifacts prior to estimation of latent factors. The correct usage of these methods in estimating the latent technical artifacts has the potential to increase statistical power in downstream differential expression analysis, while note that increasing the number of estimated batch effects also can reduce power due to the additional bias of degrees of freedom [27,41].

After estimating the latent factors using RUV, SVA and PCA approaches, an appropriate statistical approach (e.g., linear model or ComBat) is used to obtain the normalized data.

  • Remove Unwanted Variation (RUV): Under this approach, the factors of unknown technical variations are estimated and removed by performing the factor analysis on suitable sets of negative control genes or samples by keeping the primary factor of interest. Therefore, RUV [17] method is divided into three sub-methods: RUVg, RUVs, and RUVr. The RUVg and RUVs are used when negative control genes and negative control samples (i.e., samples whose read counts are not influenced by the primary factor of interest) exist. However, RUVr (i.e., residual RUV) does not require the existence of negative control genes or samples. SVD is then computed on the residual matrix to estimate the factors of unknown technical variations. The number of factors of unwanted variation, k, should be guided by considerations that include samples sizes, extent of technical effects captured by the first k factors, and extent of differential expression [17,25].
  • Surrogate Variable Analysis (SVA): In this approach, the unknown technical variations or “surrogate variables” (SV’s) are estimated by applying SVD on the computed residual matrix and selecting significant eigenvectors [18,25,42]. The first step in SVA is to determine the number of SVs using one of the two methods, “BE” or “Leek” as noted in [18,26,43]. The “BE” method is based on a permutation procedure originally proposed by Buja and Eyuboglu [43], while the “Leek” method provides an interface to the asymptotic approach proposed by Leek [42], where under the specific assumptions, the right singular vectors are asymptotically consistent for latent artifacts as the number of features grows large. Once the number of SVs is calculated, then using the two-step algorithm following Leek and Storey [18] to estimate unknown technical artifacts.
  • Principal Component Analysis (PCA): This approach is completed by applying SVD to the scaled residual matrix to estimate the factors of unknown technical variations [44]. One can determine the number of PCs to include in the model by multiple methods, including: PCs that explain a given percent of the variation PCs that are associated with the biological factors of interest (i.e., confounders) top PCs regardless of association with the primary factors of interest application of the Tracy-Widom test for determining eigenvalues significantly different from zero (noting that the assumption of independence is not valid) [45–47] or determine the PCs to include based on a permutation testing approach similar to that implemented in the SVA method.

Issues of loss of degrees of freedom

For practical purposes it is more convenient to perform downstream analyses on the batch adjusted or normalized data without further consideration of technical artifacts effects. However, adjustment for technical artifacts reduces the effective degrees of freedom in the dataset and thus changes the null distribution of the test statistics. Not accounting for this change in the degrees of freedom due to normalization for batch effects may lead to increase the false positive rates, especially when the primary factors of interest are not equally represented in all batches or batch effects act as a confounder [41]. It should be noted that whatever our normalization approach is, one is in essence reducing the degrees of freedom in the data which in turn should lower the statistical power of the test. For example, let’s assume there are two studies (Study A and Study B) with the same sample size. Let’s also assume that Study A implemented good experimental design and did not need to normalize for any known or unknown technical artifacts, while Study B did not implement adequate experimental design and thus needed extensive across sample normalization. In this situation, Study A will have more power to detect a true biological effect compared to Study B. However, the loss of degrees of freedom associated with Study B due to normalization is often overlooked in the implementation of analysis approach involving across sample normalization followed by association analysis of gene expression levels with the biological factor of interest. In the following sections, we assess the extent of the impact of the loss of degrees of freedom on the type I error rate on association testing via a simulation study.

Comparison of methods

TCGA cervical study.

To compare the normalization methods and their impact on the differential expression analysis, publically available data from the TCGA cervical study (CESC) was used [28]. Level 3 RNA-Seq data (summarized gene expression levels) and clinical patient data were downloaded via Genomic Data Commons (GDC) (https://gdc.cancer.gov/) (July 2017). The large-scale study the size of the TCGA unavoidably generated technical artifacts. These factors (e.g., tissue source site, plate ID, sequence center) were tracked for each sample with this information contained within the original TCGA ID. These known factors can also be downloaded from MBatch, a web-based analysis tool for normalization of TCGA data developed by MD Anderson. (https://bioinformatics.mdanderson.org/tcgabatcheffects).

For the CESC study, gene expression data was measured on 60,433 genes and 178 cervical tissue samples (144 squamous cell carcinomas, 31 adenocarcinomas and 3 adenosquamous cancers). The integrative clustering analysis reported in the main CESC TCGA paper used mRNA, DNA methylation, miRNA and copy number variation data identified two squamous-carcinoma-enriched groups and one adenocarcinomas-enriched group [28]. The two squamous-carcinoma groups differ largely based on gene expression levels where one squamous cluster had high expression of keratin gene family members (keratin-high) and the other squamous cluster had low expression of keratin genes (keratin-low). Hence, for comparison of the normalization methods and impact on the differential expression analysis results, we restricted our analysis to the squamous cell carcinomas and set out to determine DE genes between the keratin-high (N = 47) and keratin-low (N = 86) tumors groups. After filtering non-expressed or low-expressed genes based on counts per million (CPM), 20,884 genes with CPM values above 1 in at least 3 libraries remain.

Simulation study.

An extensive simulation study was completed to compare the performance of SVA (“BE” and “Leek”) and PCA (based on different percent of variation) methods to identify the number of latent factors (i.e., SVs), and determine SVs, where the residual RUV method was also included. Then, the performance of different across latent factor identification methods were followed by normalization compared using Euclidean distance. The simulation study also investigated the impact of not accounting for the loss of degrees of freedom due to normalization on testing (i.e., impact on the type I error rate). The empirical type I error rate was computed for each “null” gene in which the proportion of the simulated datasets (out of 1,000 simulations) with differential gene expression p-value less than 0.05. Then, for the set of simulated null genes, the average type I error rate was computed by averaging the individual “null” gene type I error rates. In the simulation of the data, we considered two main scenarios: (I) only the batch effect(s) simulated (no primary biological factor) and (II) batch effects plus the effect of a biological variable of interest, where batch and biological effect were uncorrelated. The technical artifact was simulated to represent different mechanisms: discrete number of batches or runs of the samples (e.g., two groups) or a trend effect due to time of run with a continuous effect. The primary biological effect simulated was a binary factor, such as a treatment group and a control group. Note that in the simulation study, the genes with p-values less than 0.05 are considered to be DE.

نملك ز = 1,…,جي الجينات ن = 1,…,ن samples, ك = 1,2 biological groups, and ل = 1,…,إل batches. يترك xgnkl be the count for gene ز in biological group ك, sample ن, and batch ل, with a Negative Binomial distribution: xgnkl

NegBin(ميكرومترgnkl,φز). The parameters ميكرومترgkl و φز are the mean and dispersion, respectively. Under each scenario (I or II), we changed the sample size (N = 20, 50, 100, 200), the percentage of genes were affected by the batch effect(s) (5%, 10%, 15%), and the percentage of DE genes (0%, 3%, 5%, 10%, 15%). For each scenario, 1,000 datasets were generated, where for each dataset we simulated expression levels for G = 1,000 genes. The baseline parameters and (no batch or biological effects, “null” hypothesis) were estimated using the maximum likelihood estimation (MLE) for the keratin-high samples from the CESC data. The different “non-null” simulated datasets were generated as follows.

Under the scenario I, we considered the binary batch (i.e., sequencing in different labs), continuous batch (e.g., time of day), and both binary and continuous batches. While under the scenario II, we took into account the effect of primary biological factor along with the batch effects (both binary and continuous). Then, the non-null genes (i.e., DE genes) were affected by the batch effect(s) or/and primary biological factor were generated using a mean shift and dispersion , where ωي = (ω1ي,ω2ي,…,ωGj) و γي = (γ1ي,γ2ي,…,γNj) represent the ي ذ effect of batch or primary biological variable, and J represents the total number of variables as batch and primary biological in the study (see S1 Table).

For the scenario I, to generate only the binary batch variable (i.e., ل = 1,2),γ1 was generated from the Bernouli distribution and ω1 was generated from the Normal distribution (ميكرومتر = 0,σ = 2). While for the continuous batch variable (i.e., ل = 1,…,ن),γ1 was generated from the standard Uniform distribution, يو(0,1), and ω1 were generated from the Normal distribution (ميكرومتر = 0,σ = 6). If we consider both binary and continuous variables (J = 2), then γي و ωي for j = 1,2 were generated as explained before. Lastly, for the scenario II, to take into account the effect of biological factor along with the batch effects (both binary and continuous), then γ3 و ω3 were generated from the Bernoulli distribution and the Normal distribution (ميكرومتر = 0,σ = 2), respectively. The reason of changing the values of σ is that to provide the moderate effects for batch and primary biological variable under each scenario. The code to generate the simulated data is available at S1 File.


إستعمال

a DESeqDataSet, or matrix of counts

logical, whether to blind the transformation to the experimental design. blind=TRUE should be used for comparing samples in an manner unbiased by prior information on samples, for example to perform sample QA (quality assurance). blind=FALSE should be used for transforming data for downstream analysis, where the full use of the design information should be made. blind=FALSE will skip re-estimation of the dispersion trend, if this has already been calculated. If many of genes have large differences in counts due to the experimental design, it is important to set blind=FALSE for downstream analysis.

by default, this is not provided and calculated automatically. if provided, this should be a vector as long as the number of rows of object, which is log2 of the mean normalized counts from a previous dataset. this will enforce the intercept for the GLM, allowing for a "frozen" rlog transformation based on a previous dataset. You will also need to provide mcols(object)$dispFit .

a single value, the variance of the prior on the sample betas, which if missing is estimated from the data

in case dispersions have not yet been estimated for object , this parameter is passed on to estimateDispersions (options described there).


Differential gene expression analysis

Differential expression analysis means taking the normalised read count data and performing statistical analysis to discover quantitative changes in expression levels between experimental groups. For example, we use statistical testing to decide whether, for a given gene, an observed difference in read counts is significant, that is, whether it is greater than what would be expected just due to natural random variation.

Methods for differential expression analysis

There are different methods for differential expression analysis such as edgeR and DESeq based on negative binomial (NB) distributions or baySeq and EBSeq which are Bayesian approaches based on a negative binomial model. It is important to consider the experimental design when choosing an analysis method. While some of the differential expression tools can only perform pair-wise comparison, others such as edgeR, limma-voom, DESeq and maSigPro can perform multiple comparisons.

In Figure 11, below, we outline the RNA-seq processing pipeline used to generate data for Expression Atlas.

الشكل 11 RNA-seq processing pipeline used to generate gene expression data in Expression Atlas.

In this pipeline raw reads (FASTQ files) undergo quality assessment and filtering. The quality-filtered reads are aligned to the reference genome via HISAT2. The mapped reads are summarised and aggregated over genes via HTSeq. For baseline expression, the FPKMs are calculated from the raw counts by iRAP. These are averaged for each set of technical replicates, and then quantile normalised within each set of biological replicates using limma.

Finally, they are averaged for all biological replicates (if any). For differential expression, genes expressed differentially between the test and the reference groups of each pairwise contrast are identified using DESeq2.


In projects that involve samples from different biological conditions, statistical analyses can be used to identify quantitative changes in gene expression between the different conditions. We perform this analysis using the DESeq2 framework (Love et al., 2014). The main output is a table that contains the average expression, fold-change, and associated statistics such as the P and corrected P values for each gene.


FPKM vs raw read count for differential expression testing

I'm a plant pathology student and we used RNA sequencing to examine differential expression of genes related to a specific pathway in response to a stressor in two plant varieties (a tolerant and susceptible line). I was recently criticized while presenting my RNA-seq results for using FPKM values rather than raw read counts when examining differential expression of a given gene across conditions and with the expression of other genes.

We used Illumina sequencing and mapped using Tophat followed by Cufflinks, then Cuffdiff. This professor was under the impression that FPKM values are too normalized, and that you loose accuracy if the gene is incorrectly annotated and/or the gene is very short or very long. My question, is this a criticism that you have heard before? Is it necessarily wrong to present data as FPKM values? I'm just curious what the opinion is on this subject.

Ok --- so it seems this question comes up كثيرا (I'm going to sit down and write a blog post about this at some point). There are a couple of things worth pointing out from your question.

First, most packages لاتفعل support the use of TPM or FPKM for differential expression testing. This means that e.g. it's completely wrong to feed them to programs expecting counts (e.g. DESeq2 or EdgeR). One reason for this is that these measures are normalized. What I mean by this is that, for example, if you sum the TPM of all genes/transcripts in a sample, the sum will always be 1,000,000 this is a direct result of the way TPM is calculated. FPKM will behave in a similar manner (though, as many have pointed out, TPM should always be preferred to FPKM which has a more arbitrary and less stable normalization term).

Some tools do make use of FPKM for differential expression testing (the Tuxedo tools), but they also maintain extra information about samples (e.g. the total number of reads) that allow for the proper comparison of these normalized measures across samples. On the other hand, most popular stand-alone DE tools (e.g. DESeq2, EdgeR, etc.) expect counts as input. This is because they perform their own, internal, normalization to help account for effect size (1000 reads coming from a transcript means something different when there are 10 million reads in my sample vs. 50 million). My personal recommendation would be to use salmon (disclosure: I'm the author of this tool P) to process your sample, and then feed the "NumReads" column (appropriately rounded) to a DE tool like DESeq2. That being said, the pipeline that it sounds like you followed (i.e. TopHat => Cufflinks => CuffDiff) is ليس unreasonable --- these tools were meant to be used together. While some recent surveys have shown that they can be outperformed by other methods, I don't believe there is anything systematically wrong on that front.

On a finer point, regarding what was said by the professor that

FPKM values are too normalized, and that you loose accuracy if the gene is incorrectly annotated and/or the gene is very short or very long.


Anders, S., and Huber, W. (2010). Differential expression analysis for sequence count data. جينوم بيول. 11:R106. doi: 10.1186/gb-2010-11-10-r106

Bacher, R., Chu, L., Leng, N., Gasch, A. P., Thomson, J. A., Stewart, R. M., et al. (2017). SCnorm: robust normalization of single-cell RNA-seq data. نات. أساليب 14:584. doi: 10.1038/nmeth.4263

Bullard, J. H., Purdom, E., Hansen, K. D., and Dudoit, S. (2010). Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments. المعلوماتية الحيوية BMC 11:94. doi: 10.1186/1471-2105-11-94

Cole, M. B., Risso, D., Wagner, A., DeTomaso, D., Ngai, J., Purdom, E., et al. (2018). Performance assessment and selection of normalization procedures for single-cell RNA-seq. bioRxiv [Preprint]. doi: 10.1101/235382

Dobin, A., Davis, C. A., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., et al. (2013). STAR: ultrafast universal RNA-seq aligner. المعلوماتية الحيوية 29, 15�. doi: 10.1093/bioinformatics/bts635

Gao, S. (2018). Data analysis in single-cell transcriptome sequencing. طرق مول. بيول. 1754:18.

Gao, S., Ou, J., and Xiao, K. R. (2014). language and Bioconductor in Bioinformatics Applications(Chinese Edition). Tianjin: Tianjin Science and Technology Translation Publishing Ltd.

Gao, S., Tian, X., Chang, H., Sun, Y., Wu, Z., Cheng, Z., et al. (2017). Two novel lncRNAs discovered in human mitochondrial DNA using PacBio full-length transcriptome data. Mitochondrion 38, 41�. doi: 10.1016/j.mito.2017.08.002

Gao, S., Zhang, N., Duan, G. Y., Yang, Z., Ruan, J. S., and Zhang, T. (2009). Prediction of function changes associated with single-point protein mutations using support vector machines (SVMs). همم. موتات. 30, 1161�. doi: 10.1002/humu.21039

Glusman, G., Caballero, J., Robinson, M., Kutlu, B., and Hood, L. (2013). Optimal scaling of digital transcriptomes. بلوس واحد 8:e77885. doi: 10.1371/journal.pone.0077885

Jiang, L., Schlesinger, F., Davis, C. A., Zhang, Y., Li, R., Salit, M., et al. (2011). Synthetic spike-in standards for RNA-seq experiments. الدقة الجينوم. 21:1543. doi: 10.1101/gr.121095.111

Li, P., Piao, Y., Shon, H. S., and Ryu, K. H. (2015). Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data. المعلوماتية الحيوية BMC 16:347. doi: 10.1186/s12859-015-0778-7

Lovén, J., Orlando, D. A., Sigova, A. A., Lin, C. Y., Rahl, P. B., Burge, C. B., et al. (2012). Revisiting global gene expression analysis. زنزانة 151, 476�. doi: 10.1016/j.cell.2012.10.012

Lun, A. T., Karsten, B., and Marioni, J. C. (2016). Pooling across cells to normalize single-cell RNA sequencing data with many zero counts. جينوم بيول. 17:75. doi: 10.1186/s13059-016-0947-7

Robinson, M. D., McCarthy, D. J., and Smyth, G. K. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. المعلوماتية الحيوية 26, 139�. doi: 10.1093/bioinformatics/btp616

Wu, Z., Liu, W., Jin, X., Yu, D., Wang, H., Glusman, G., et al. (2018). NormExpression: an R package to normalize gene expression data using evaluated methods. bioRxiv [Preprint]. doi: 10.1101/251140

Zhang, M., Zhan, F., Sun, H., Gong, X., Fei, Z., et al. (2014). �stq_clean: an optimized pipeline to clean the Illumina sequencing data with quality control,” in Proceedings of the IEEE International Conference on Bioinformatics and Biomedicine (BIBM), (Piscataway, NJ: IEEE).

Keywords : gene expression, normalization, evaluation, R package, scRNA-seq

Citation: Wu Z, Liu W, Jin X, Ji H, Wang H, Glusman G, Robinson M, Liu L, Ruan J and Gao S (2019) NormExpression: An R Package to Normalize Gene Expression Data Using Evaluated Methods. أمام. جينيه. 10:400. doi: 10.3389/fgene.2019.00400

Received: 24 December 2018 Accepted: 12 April 2019
Published: 30 April 2019.

Tuo Zhang, Cornell University, United States

Yudong Cai, Shanghai University, China
Naibin Duan, Shandong Academy of Agricultural Sciences, China

Copyright © 2019 Wu, Liu, Jin, Ji, Wang, Glusman, Robinson, Liu, Ruan and Gao. هذا مقال مفتوح الوصول يتم توزيعه بموجب شروط ترخيص Creative Commons Attribution License (CC BY). يُسمح بالاستخدام أو التوزيع أو الاستنساخ في منتديات أخرى ، بشرط أن يُنسب الفضل إلى المؤلف (المؤلفين) الأصليين ومالك (مالكي) حقوق الطبع والنشر وأن يتم الاستشهاد بالمنشور الأصلي في هذه المجلة ، وفقًا للممارسات الأكاديمية المقبولة. لا يُسمح بأي استخدام أو توزيع أو إعادة إنتاج لا يتوافق مع هذه الشروط.


شاهد الفيديو: تضافر علم الأنساب وعلم الوراثة DNA يمكنهما من وضع خريطة فريدة للأنساب البشرية (أغسطس 2022).