معلومة

معنى بيانات RNA-seq

معنى بيانات RNA-seq


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

قرأت العديد من الأوراق المذكورة "بيانات تسلسل الحمض النووي الريبي". أثناء البحث عن معنى هذه الكلمة ، لم أتمكن من العثور على تعريف أي شخص عادي.

بقدر ما أفهم، بيانات RNA-seq هي معلومات RNA الكاملة في خلية (أو كل الخلايا) من نوع يتم استخراجه في وقت معين.

هل أنا على صواب مع هذا التعريف؟ إذا كانت الإجابة بنعم ، فهل هذا يعني أنه من خلال استخراج جميع معلومات الحمض النووي الريبي ، يعرف المرء جميع تسلسلات الحمض النووي الريبي في تلك الأنواع (مثل AUGGUCAUCAG ...)؟ أم يعني أن لديّ الحمض النووي الريبي ، لكن ليس التسلسل؟


عادةً ما توفر بيانات RNA-seq لقطة في الوقت المناسب لنسخة ما يتم تسلسله. التسلسل أحادي الخلية ممكن ، ولكنه أقل شيوعًا من تسلسل الحمض النووي الريبي في عينة (تحتوي على العديد من الخلايا).

أنت محق في أن RNA-seq يزود المرء بمعرفة عن تسلسل الحمض النووي الريبي ، مثل AUGGUCAUCAG وما إلى ذلك. ومع ذلك ، لن يكون لدى المرء بالضرورة معلومات حول كله ممكن تسلسل الحمض النووي الريبي من نوع معين. قد يؤدي تنفيذ RNA-seq على نفس نوع الخلية من نوع ما في نقطتين زمنيتين مختلفتين ، أو نوعين مختلفين من الخلايا في نفس النقطة الزمنية ، إلى ملفات تعريف مختلفة لتسلسلات RNA التي تعود إليك. يعتمد ذلك على أجزاء الجينوم الموجودة أعربت بواسطة الخلايا في عينة وقت استخراج الحمض النووي الريبي.

تعتمد البيانات التي يحصل عليها المرء من تسلسل الحمض النووي الريبي على التكنولوجيا والشركة المستخدمة. عادةً ما يتضمن RNA-seq استخدام خطوة النسخ العكسي بحيث يتم الإبلاغ فعليًا عن بيانات التسلسل التي تحصل عليها كإصدار cDNA من نسخ mRNA الأصلية. عادةً ما يحصل المرء على ملف (كبير جدًا) للتسلسل "يقرأ". يمكن للمرء بعد ذلك إما "تجميع" هذه العناصر مباشرة لتشكيل لقطة من الترنسكريبتوم أو يمكن ربطها بجينوم مرجعي معروف. تتمثل إحدى الفوائد الرئيسية لـ RNA-seq في أننا لا نتعلم فقط ماهية تسلسل جزيئات الحمض النووي الريبي ، ولكن أيضًا وفرتها النسبية داخل العينة. يمكن أن تكون معرفة ذلك مفيدة بشكل خاص في اختبار أو تطوير مجموعة كبيرة من الفرضيات البيولوجية.


يحدث تسلسل الحمض النووي الريبي (RNA) عندما تقوم باستخلاص الحمض النووي الريبي (RNA) ثم تسلسلها ، والذي يتضمن عادةً تفتيتها.

أنت تعرف في الواقع جميع التسلسلات لجميع جزيئات الحمض النووي الريبي التي يتم تسلسلها. لا أستطيع أن أرى تفسيرًا لا يؤدي إلى حصولك على تسلسل الجزيئات ، ما يسمى بـ "التسلسل" وكل شيء.


الدرس 9: بيانات تسلسل الحمض النووي الريبي

لقد أدت تقنيات التسلسل عالية الإنتاجية إلى توسيع الأدوات المتاحة لاستكشاف الحمض النووي والحمض النووي الريبي بشكل كبير. يركز هذا الفصل على تقييم التعبير الجيني التفاضلي بواسطة RNA-seq. ومع ذلك ، تتوفر أدوات إحصائية مشابهة جدًا للدراسات التفاضلية الأخرى باستخدام التسلسل.

يبدأ التسلسل بعينة من الحمض النووي الريبي المأخوذة من الأنسجة. يمكن معالجة هذا مسبقًا لإثراء أنواع معينة من الحمض النووي الريبي ، مثل RNA مع ذيول بولي-أ. عادة ما يتم تحويلها بعد ذلك إلى [كدنا]. عادةً ما تكون هناك بعض فحوصات الجودة للتأكد من وجود ما يكفي من الحمض النووي الريبي في العينة وعدم تدهور الحمض النووي الريبي. ثم يتم تجزئة (كدنا) إلى أجزاء. يتم التحكم في طول الأجزاء بشكل فضفاض ، بمعنى أنه يمكن استهداف متوسط ​​الطول. في بعض الدراسات ، هناك اختيار إضافي للحصول على أجزاء فقط في نافذة ضيقة الحجم. في حالات أخرى ، يمكن ترتيب معظم الأجزاء الطويلة بما فيه الكفاية. الجزء المتسلسل يسمى "قراءة".

وحدة التسلسل الأساسية هي "حارة" تحتوي بشكل أساسي على عينة تسلسل واحدة. غالبًا ما تسمى مجموعة الممرات التي تتم معالجتها معًا "لوحة". يمكن تقسيم عينة واحدة من الحمض النووي الريبي عبر مسارات متعددة لزيادة كمية التسلسل المنجز. هذا غير شائع في دراسات RNA-seq الحالية ، لأن كل مسار يمكنه الآن تسلسل مئات الملايين من أجزاء الحمض النووي الريبي ، وهو أكثر من كافٍ لـ RNA-seq ، ولكن يمكن إجراؤه في الدراسات التي تحتاج إلى أعداد قراءة عالية جدًا.

يمكن تسمية شظايا النوكليوتيدات عن طريق توليف متواليات قصيرة في نهاية كل جزء. هذه التسلسلات تسمى الرموز الشريطية. يتم تسلسل الرمز الشريطي مع بقية الجزء. من خلال عينات الترميز ، يمكننا مزج عينات مختلفة في حارة التسلسل ثم تحديد القراءات التي تنتمي إلى العينات التي تستخدم الرمز الشريطي. يُطلق على عينات الترميز والمزج قبل تحميل حارة التسلسل تعدد الإرسال. يتم استخدامه بشكل متكرر لتقليل تكاليف التسلسل عندما ينتج جهاز التسلسل مزيدًا من القراءة لكل حارة ثم تتطلبها الدراسة. على سبيل المثال ، بالنسبة لدراسات RNA-seq ، فإن التوصية هي الحصول على حوالي 25 مليون قراءة لكل عينة. إذا كان بإمكان جهاز التسلسل إنتاج 200 مليون قراءة لكل حارة ، فيمكن مضاعفة 8 عينات على نفس الممر.

تقنيات التسلسل

أحدث التقنيات هي متسلسلات "جزيء واحد" والتي يمكنها تسلسل خيوط طويلة جدًا من الحمض النووي كما هو معتاد مع التقنيات الجديدة ، وهي حاليًا باهظة الثمن وغير دقيقة وليست عالية بما يكفي للدراسات الكمية. بناءً على التحسن السريع في سلائفها ، من المحتمل أن يتم التغلب على هذه النواقص في غضون سنوات قليلة. حاليًا ، تُستخدم هذه التقنيات في الغالب لتحسين معرفتنا بتسلسل الحمض النووي والحمض النووي الريبي.

بالنسبة للدراسات الكمية ، مثل التعبير الجيني ، يتم تسلسل الأجزاء الأقصر بكثير - عادةً حوالي 250 قاعدة. عادةً ما تتسلسل تقنيات الإنتاجية العالية الحالية بين 50 و 250 قاعدة لكل جزء (يسمى طول القراءة) مع كون القراءات الأطول أكثر تكلفة نسبيًا. كان تسلسل النهاية المقترن ، الذي تم فيه تسلسل كل جزء من كلا الطرفين ، شائعًا لفترة من الوقت لتحقيق طول قراءة أكبر. الآن بعد أن أصبح طول القراءة قابلاً للمقارنة تمامًا مع طول الجزء ، يؤدي تسلسل النهاية المقترن إلى تسلسل مركز القراءة مرتين ، وهو غير فعال من حيث التكلفة.

مطابقة القراءات بالميزات

بمجرد أن يتم تسلسل شظايا الحمض النووي الريبي ، يجب تحديدها من خلال المطابقة مع ميزات الاهتمام. هذا يسمى التعيين. بالنسبة للعديد من الكائنات الحية ، يوجد بالفعل جينوم مرجعي (كل الحمض النووي) ، أو نسخة (جميع نسخ الحمض النووي الريبي) أو أي نوع آخر من المراجع. إذا لم يكن هناك مرجع ، أو إذا كنت بحاجة إلى مرجع أكثر تحديدًا للسلالة التي تعمل بها ، فيمكن استخدام القراءات لإنشاء مرجع. تساعد القراءات الأطول والأكثر دقة في التخطيط الجيد ، وهي مهمة بشكل خاص عند إنشاء مرجع. لا يعتبر بناء مرجع أو رسم خرائط من بين موضوعات هذه الدورة. عادةً ما يتم استخدام برنامج رسم الخرائط المتخصص ، ثم تتم مطابقة القراءات المعينة بالمناطق الجينومية المقابلة للسمات محل الاهتمام.

عندما أعمل مع مختبر ليس لديه خبرة في رسم الخرائط ، أطلب عمومًا من مرفق التسلسل إجراء رسم الخرائط. من بين المزايا الأخرى ، هذا يعني أنني لست بحاجة إلى التعامل مع البيانات الأولية ، والتي تعد كبيرة. يبلغ حجم ملف قراءة RNA-seq النموذجي أكثر من 10 جيجا بايت. عادةً للحصول على البيانات الأولية ، يرسل المتعاونون معي محركًا ثابتًا إلى مرفق التسلسل - خدمة البريد السريع أسرع من التحميل والتنزيل من السحابة الحاسوبية!

بعد التعيين إلى المرجع ، يتم تحويل القراءات إلى أعداد لكل معلم. عادةً لا تتطابق نسبة صغيرة من القراءات مع أي شيء وتتطابق نسبة صغيرة أخرى مع موقعين أو أكثر في المرجع (والتي قد تكون لأوجه التشابه في المرجع أو أخطاء القراءة). غالبًا ما يحصل خبير المعلومات الحيوية على نتائج أفضل من أي شخص يتابع نصًا "جاهزًا" عن طريق كتابة نصوص تتعامل بطرق معقولة مع هذه القراءات غير المعينة. في أي حال ، تكون النتيجة النهائية عبارة عن مصفوفة تعبير ، عادةً مع ميزات في الصفوف والعينات (أو الممرات هي العينات مقسمة عبر الممرات) في الأعمدة. هذه هي البيانات التي ستدخل في تحليل التعبير التفاضلي. يجب عليك أيضًا الاحتفاظ بالمعلومات حول عدد القراءات التي لم يتم تعيينها وعدد القراءات المعينة لمواقع متعددة - هذه المعلومات مطلوبة لتفسير نتائجك الإحصائية.

ملاحظة واحدة من الحذر! غالبًا ما تقوم مرافق التسلسل والمختبرات بتحويل الخرائط إلى وحدات أخرى مثل التعداد لكل مليون قراءة (CPM) أو التعداد لكل كيلو من القواعد لكل مسار جيني لكل مليون (RPKM). هذه الأنواع من البيانات ليست مناسبة لأنواع التحليل التي سيتم إجراؤها هنا. تعتمد بنية الخطأ في البيانات على عدد القراءات. لا يهم ما إذا كان أحد الجينات صغيرًا جدًا جدًا وفي نفس مستوى التعبير ينتج 1/10 من القراءات التي يمكن أن يقوم بها جين ضخم ، كل ما يهم هو عدد القراءات التي قمت بحسابها بالفعل. هذا لأنه ، كما سنرى في القسم التالي ، يرتبط تباين العد بمتوسطه. إذا قمت بالتحويل إلى قراءات لكل شيء ، فلن تتمكن من استرداد التباين.

هناك جزء آخر مهم من المعلومات يتم فقده عند التحويل إلى قراءات لكل شيء وهو إجمالي عدد القراءات للعينة. على سبيل المثال ، في دراسة السرطان ، اعتقدنا أن لدينا مجموعة سكانية فرعية من الخلايا يتم التعبير فيها فقط عن مجموعة فرعية من الجينات. اتضح أن بعض العينات أنتجت بضعة آلاف فقط من القراءة ، بينما أنتج البعض الآخر عشرات الملايين. لم يتم اكتشاف العديد من الجينات التي تم التعبير عنها بشكل متواضع في العينات في العينات بقراءات قليلة. لم يكن هذا واضحًا عندما تلقينا البيانات كـ RPKM ، ولكنه كان واضحًا جدًا بمجرد أن رأينا إجمالي القراءات لكل عينة. كان التباين في إجمالي القراءات ناتجًا عن صعوبات فنية ، وليس بسبب الأنسجة السرطانية.

من الممرات إلى العينات

وحدات التحليل لدينا هي ميزات وعينات من الحمض النووي الريبي. في العديد من الدراسات ، تختلف مسارات التسلسل والعينات. رسم الخرائط يحدد الميزات. نحتاج أيضًا إلى التلخيص بالعينة

في بعض الدراسات ، تم تقسيم عينات الحمض النووي الريبي عبر عدة مسارات. اتضح أنه يتم الحفاظ على بنية الخطأ إذا قمنا ببساطة بتلخيص القراءات من كل عينة للحصول على إجمالي القراءات لكل ميزة في العينة.

في بعض الدراسات ، تكون عينات الحمض النووي الريبي مشفرة ومتعددة بحيث يتم ترتيب عدة عينات معًا. نظرًا لتعيين القراءات إلى المرجع ، يجب قراءة الرموز الشريطية حتى يمكن أيضًا تخصيصها للعينات.

عندما ننتهي من عملية التعيين وتعيين العينة ، يجب أن يكون لدينا مصفوفة بيانات بالأعداد. عادةً ما يكون كل صف من المصفوفة معلمًا وكل عمود عبارة عن عينة. البيانات لها شكل العد (n_) تعيين عدد القراءات للميزة أنا في العينة ي.

حجم المكتبة

يسمى RNA الذي تم تسلسله بمكتبة RNA. مع فترات قراءة أطول وتسلسل أكثر دقة ، في هذه الأيام في معظم الكائنات الحية ، يتم تعيين معظم القراءات.

قد يعني حجم المكتبة أحد أمرين: العدد الإجمالي للقراءات التي تم تسلسلها في التشغيل أو العدد الإجمالي للقراءات المعينة. سنستخدم العدد الإجمالي للقراءات المعينة كحجم المكتبة في تحليلاتنا. تطبيع بيانات RNA-seq تتم عن طريق حساب حجم مكتبة "فعال" ، والذي يتم حسابه من حجم المكتبة الفعلي وتوزيع الأعداد.


العد

& # 8220Counts & # 8221 يشير عادةً إلى عدد القراءات التي تتوافق مع ميزة معينة. أنا & # 8217 أشير إلى التهم حسب المتغير العشوائي. تعتمد هذه الأرقام بشكل كبير على شيئين: (1) مقدار الأجزاء التي قمت بتسلسلها (هذا مرتبط بالوفرة النسبية) و (2) طول الميزة ، أو بشكل أكثر ملاءمة ، الطول الفعال. يشير الطول الفعال إلى عدد مواقع البدء المحتملة التي يمكن لميزة أن تنتج جزءًا بهذا الطول المحدد. من الناحية العملية ، يُحسب الطول الفعال عادةً على النحو التالي:

أين هو متوسط ​​توزيع طول الجزء الذي تم تعلمه من القراءة المحاذاة. إذا كانت طريقة تقدير الوفرة التي تستخدمها & # 8217re تتضمن نمذجة التحيز التسلسلي (مثل eXpress أو Cufflinks) ، فغالبًا ما يتم دمج التحيز في الطول الفعال عن طريق جعل الميزة أقصر أو أطول بناءً على تأثير التحيز.

نظرًا لأن الأعداد لا يتم قياسها حسب طول الميزة ، فإن جميع الوحدات في هذه الفئة لا يمكن مقارنتها داخل عينة بدون ضبط طول الميزة. هذا يعني أنه يمكنك & # 8217t جمع الأعداد على مجموعة من الميزات للحصول على التعبير عن تلك المجموعة (على سبيل المثال ، يمكنك & # 8217t مجموع الأعداد الإسوية للحصول على عدد الجينات).

غالبًا ما يتم استخدام الأعداد بواسطة طرق التعبير التفاضلي حيث يتم تمثيلها بشكل طبيعي بواسطة نموذج العد ، مثل ذات الحدين السالب (NB2).

التهم الفعالة

عندما ظهرت eXpress ، بدأوا في الإبلاغ عن & # 8220 التهم الفعالة. & # 8221 هذا هو في الأساس نفس الشيء مثل الأعداد القياسية ، مع الاختلاف في أنه تم تعديلها لمقدار التحيز في التجربة. لحساب التهم الفعال:

الحدس هنا هو أنه إذا كان الطول الفعال أقصر بكثير من الطول الفعلي ، فعندئذٍ في تجربة بدون تحيز تتوقع أن ترى المزيد من التهم. وبالتالي ، فإن التهم الفعالة تزيد من التهم المرصودة.

التهم لكل مليون

يتم قياس الأعداد لكل مليون (CPM) للقراءات المعينة حسب عدد الأجزاء التي قمت بتسلسلها () مضروبًا في مليون. ترتبط هذه الوحدة بـ FPKM بدون تطبيع الطول وعامل:

لست متأكدًا من المكان الذي ظهرت فيه هذه الوحدة لأول مرة ، لكنني شاهدتها مستخدمة مع edgeR وتحدثت عنها لفترة وجيزة في ورق limma voom.


دليل المبتدئين لتحليل بيانات تسلسل الحمض النووي الريبي

منذ ظهور المنشورات الأولى التي تصوغ مصطلح RNA-seq (تسلسل الحمض النووي الريبي) في عام 2008 ، نما عدد المنشورات التي تحتوي على بيانات RNA-seq بشكل كبير ، حيث وصل إلى أعلى مستوى له على الإطلاق بلغ 2808 منشورًا في عام 2016 (PubMed). مع إنشاء هذه الثروة من بيانات RNA-seq ، فإنه يمثل تحديًا لاستخراج المعنى الأقصى من مجموعات البيانات هذه ، وبدون المهارات والخلفية المناسبة ، هناك خطر سوء تفسير هذه البيانات. ومع ذلك ، فإن الفهم العام للمبادئ الكامنة وراء كل خطوة من خطوات تحليل بيانات RNA-seq يسمح للمحققين الذين ليس لديهم خلفية في البرمجة والمعلوماتية الحيوية بتحليل نقدي لمجموعات البيانات الخاصة بهم وكذلك البيانات المنشورة. تتمثل أهدافنا في هذه المراجعة في تحليل خطوات تحليل RNA-seq النموذجي وتسليط الضوء على المزالق ونقاط التفتيش على طول الطريق التي تعتبر حيوية لعلماء مقاعد البدلاء والباحثين في الطب الحيوي الذين يقومون بإجراء تجارب تستخدم RNA-seq.

الكلمات الدالة: تسلسل الحمض النووي الريبي تحليل البيانات الحيوية.

الأرقام

تقييم التباين بين المجموعات وداخلها ...

تقييم التباين بين وداخل المجموعات. ( أ ) مخطط تحليل المكون الرئيسي (الكمبيوتر الشخصي) ...

تحديد حد منخفض للعد ...

تحديد عتبة منخفضة العدد. ( أ ) عدد الجينات في ...

تأثير حجم المجموعة والتباين داخل المجموعة على القدرة على التحديد بشكل مختلف ...

توزيع أنوفا ص القيم…

توزيع أنوفا ص قيم لـ ( أ ) الكل ( ن =…

تأثير حجم المجموعة والتباين داخل المجموعة على القدرة على تحديد مجموعات الجينات ...

تحليل الجينات الفردي. تعبير RPKM ...

تحليل الجينات الفردي. قيم تعبير RPKM لملف Cdk2 , Il1b ، و…


المواد والأساليب

بيانات RNA-Seq

تم إنشاء أربع عينات من دورة الخلية المتزامنة لبيانات RNA-Seq من الخلايا الليفية البشرية المتعطشة للمصل (NHDF) (31). لفترة وجيزة ، تم تجويع الخلايا لمدة 48 ساعة ثم حصادها في 0 ساعة وبعد إعادة تغذية المصل في 12 و 18 و 24 ساعة ، حيث خضعت الخلايا لانقسام متزامن للخلايا. تم إجراء تحليل RNA-Seq على Illumina HiSeq2500 (Illumina ، سان دييغو ، كاليفورنيا ، الولايات المتحدة الأمريكية) بتسلسل مزدوج النهايات 100 نقطة أساس وفقًا لتوصيات الشركة المصنعة وتم إجراؤه بواسطة Edinburgh Genomics (إدنبرة ، المملكة المتحدة) باستخدام TruSeq ™ RNA Sample Prep Kit (إلومينا). تم عزل Poly- (A) RNA وتجزئته لإنتاج شظايا 180 زوج قاعدي في المتوسط. تم نسخ الحمض النووي الريبي المجزأ بشكل عكسي واستخدم قالب DNA واحد تقطعت به السبل لتوليد حبلا مزدوج (كدنا) انتهى بشكل حاد باستخدام بوليميريز الحمض النووي T4 قبل إضافة قاعدة الأدينوزين للمساعدة في ربط محولات التسلسل. تم إجراء تحضير خلية التدفق وفقًا لبروتوكولات Illumina ، حيث تم تغيير طبيعة المكتبات وتخفيفها إلى تركيز 15 ميكرومتر للتحميل في خلايا التدفق. تمت معالجة بيانات RNA-Seq باستخدام وحش بحري أسطوري مجموعة من الأدوات لمراقبة الجودة وتحليل بيانات التسلسل عالية الإنتاجية (32). تم الإبلاغ عن مستويات التعبير كأجزاء لكل كيلو قاعدة من النص لكل مليون (FPKM).

لتحليل مجموعة أوسع من العينات ، تم تنزيل بيانات RNA-Seq من أطلس الأنسجة البشرية (33) التي تمثل 27 أنسجة مختلفة من قاعدة بيانات ArrayExpress (E-MTAB-1733). تم إجراء التصور الأساسي للبيانات باستخدام IGV لتصور القراءات المعينة على الجينوم المرجعي في مواضع معينة أو جينات عبر العينات. تم أيضًا استخدام بيانات التسلسل طويلة القراءة لعينات القلب والكبد والرئة البشرية الصادرة عن Pacific Biosciences (PacBio) (34) لإجراء مقارنة مع تجميع النسخ المتولد من بيانات القراءة القصيرة.

إعداد الملفات لتصور النص

يعتمد خط الأنابيب الموضح أدناه على مجموعة من البرامج النصية bash و Python المرتبطة التي تؤدي المهام التالية. تم إجراء QC الأولي ورسم الخرائط إلى الجينوم المرجعي (GRCh38) باستخدام ربطة القوس الإصدار 1.1.0 (35). تم تحويل بيانات رسم الخرائط التسلسلية (BAM) إلى ملف نصي مناسب لتصور الرسم البياني في الأداة المجانية والمفتوحة المصدر Graphia Professional https://kajeka.com/graphia-professional/ (Kajeka Ltd ، إدنبرة ، المملكة المتحدة). أولاً ، تم فرز ملفات BAM وفقًا لموقع الكروموسومات المعين باستخدام نوع من عند SAMtools (36). حزمة R نطاقات جينوميك تم استخدام (37) لإنشاء معلومات توضيحية ، من ملف GTF يحتوي على تعليق توضيحي للعقدة. يحتوي ملف GTF هذا على معلومات توضيحية حول بنية الجينات (إصدار Ensembl GRCh38). كان الإخراج من هذه الخطوة عبارة عن ملف محدد بعلامات جدولة يحتوي على تعيينات للقراءة على ميزات نص Ensembl و exon. يتم تعيين قراءات امتداد تقاطع إكسون إلى exon حيث توجد غالبية تسلسلها. يمكن إضافة هذه المعلومات إلى الرسوم البيانية باستخدام مجموعات الفصول الدراسية وظيفة Graphia ، مثل أنه عند اختيار معرف نسخة Ensembl ، سيتم تلوين العقد التي تمثل تلك الخريطة لنموذج النص هذا وفقًا لرقم exon.

كانت الخطوة التالية هي تحديد التشابه بين تعيين القراءات لجين مهم من ملفات BAM و GTF. تم استخراج ملف FASTA يحتوي على جميع التسلسلات التي تم تعيينها إلى جين معين واستخدام المعلومات الداعمة لتصور الأشكال الإسوية للنسخ في سياق الرسم البياني الناتج. لمقارنة القراءة للقراءة ، تم استخدام MegaBLAST (38) لإنشاء مصفوفة تشابه بأوزان حواف مشتقة من درجة بت المحاذاة. معلمة هذه الخطوة ، أي تحديد عتبة التشابه التسلسلي٪ (ص) والطول (ل) التي يجب أن يتشابه فيها تسلسلين من أجل رسم حافة بينهما أمر ذو أهمية خاصة. من الناحية المثالية ، يجب أن يحتوي الرسم البياني على الحد الأقصى لعدد القراءات (العقد) ، متصلة بأدنى عدد من الحواف وحيثما أمكن يؤدي إلى مكون رسم بياني واحد ، أي مجموعة واحدة من العقد المتصلة التي تمثل معًا أنواع الرنا المرسال ذات الأهمية. بالنسبة للنصوص عالية التغطية ، قد يكون من المرغوب فيه استخدام معاملات أكثر صرامة.

استكشاف بنية الرسم البياني باستخدام الجين المحاكى مع أحداث الربط المتعددة

تم تجميع نماذج النسخ الاصطناعية التي تمثل نوعين مختلفين من لصق نفس الجين 2706 bp من 10 exons للجين TTN، يتراوح طول exons المحدد بين 261 و 282 نقطة أساس. عند الجمع بين النسختين المحاكيتين معًا ، تم دمج موقع بدء بديل (E1a ، E1b) ، exons متنافر (E3a ، E3b) ، تم تخطي exon (E5) وموقع بديل 5 مانح (20 نقطة أساس أقصر E7). باستخدام ART (إصدار MountRainier) (39) تمت محاكاة مستويين من عمق التسلسل / وفرة النص ، وذلك لتوفير إما 250 أو 1000 ، 125 نقطة أساس لكل نموذج نسخة. لكل مستوى من وفرة النص ، تم دمج القراءات المحاكاة للنصوص في ملف FASTQ واحد ومحاذاة الجينوم المرجعي (GRCh37) مع HISAT (الفهرسة الهرمية لمحاذاة النصوص المقسمة) (40). تم إنشاء الرسوم البيانية لتجميع الحمض النووي الريبي من ملفات BAM الناتجة باستخدام نسبة عتبة مماثلة (ص = 98) وثلاثة إعدادات لعتبة تغطية الطول (ل = 20 ، 40 ، 80). تم تصور الرسوم البيانية الناتجة في Graphia Professional (Kajeka Ltd) (الشكل 2).

تخطيط الرسم البياني

يستلزم الحجم والطوبولوجيا غير المعتادة للرسوم البيانية المتسلسلة DNA / RNA استخدام نهج تخطيط بياني محسن للغاية. بعد التجريب (انظر الشكل التكميلي S1) ، تبين أن الطريقة السريعة متعددة المستويات (FMMM) (41) مناسبة تمامًا لتخطيط هذه الأنواع من الرسوم البيانية. تمت إعادة تطبيق خوارزمية FMMM في Java من Open Graph Drawing Framework (OGDF) (42) وتم دمجها في قاعدة رمز Graphia Professional (29) ، مما أضاف القدرة الفريدة على تنفيذ تخطيط الرسم البياني FMMM في مساحة ثلاثية الأبعاد. بشكل عام ، كلما ارتفع إعداد جودة FMMM ، أصبح الرسم البياني أكثر خطية ، ولكن على حساب وقت التشغيل الحسابي.

انهيار القراءات الزائدة عن الحاجة

في حالة الجينات المعبر عنها بشكل كبير ، يمكن أن يكون هناك درجة كبيرة من التكرار في تغطية القراءة ، أي أن القراءات من نفس التسلسل بالضبط قد تكون موجودة في البيانات عدة مرات. لا تضيف القراءات الزائدة شيئًا إلى تفسير بنية النص وتجعل خطوة المقارنة للقراءة للقراءة تستغرق وقتًا طويلاً دون داعٍ ويكون الرسم البياني الناتج صعبًا أو مستحيلًا في بعض الأحيان بسبب حجمه. استخدام تالي من وحش بحري أسطوري الحزمة (32) ، تم تعيين قراءات متعددة متطابقة لمعرف واحد يتضمن عدد تكرارات ذلك التسلسل المحدد. عند استخدام وضع توحيد القراءة ، يتم استخدام عقدة واحدة لتمثيل عدة قراءات متطابقة ، حيث يتناسب قطر العقدة مع العدد الأصلي للقراءات التي تمثلها.

تحليل هيكل الرسم البياني

في البداية ، اخترنا فحص مجموعة من 550 جينًا تم تنظيم تعبيرها مع دخول الأرومات الليفية في مراحل S-M من دورة الخلية (18-24 ساعة بعد تحويلها إلى مصل). تم رسم رسم بياني مشتق من بيانات 24 ساعة لكل جين باستخدام معلمات MegaBLAST ص = 98, ل = 31. عندما كانت طوبولوجيا الرسم البياني للجينات بسيطة نسبيًا ، فإن تفسير هيكلها يتطلب فقط تراكب معلومات نسخة exon الفردية من أجل تحديد متغير (أشكال) لصق ممثلة. في حالات أخرى ، كانت هناك حاجة إلى مزيد من التحليلات التفصيلية. تم إنشاء رسوم بيانية أخرى من بيانات أطلس الأنسجة البشرية المتوفرة في ArrayExpress (E-MTAB-1733) (33). في عينات الأنسجة ، قد تنشأ القراءات من أنواع خلايا متعددة تعبر عن أشكال مختلفة من نفس الجين. تم تعيين قراءات النهاية المزدوجة البالغة 100 نقطة أساس لكل نسيج بشكل فردي على الجينوم البشري (Ensembl GRCh38.82) باستخدام STAR v2.3.0 (43). تم استخدام الإخراج من عملية التعيين (ملفات BAM) لإنشاء رسوم بيانية لتجميع الحمض النووي الريبي باستخدام خط الأنابيب الخاص بنا. البيانات المتاحة للجمهور عن TPM1 تم استخدامها لمقارنة نهج RNA-Seq القائم على الشبكة مع نتائج قراءة طويلة في Pacific Biosciences (PacBio) التي تم الحصول عليها من خلال موقع الويب الخاص بهم (34). ال TPM1 تمت مقارنة نماذج الجينات من كلا البيانات للقلب والدماغ والكبد.

التحقق من صحة متغيرات لصق باستخدام RT-PCR

للتحقق من وجود متغيرات لصق تنبأت بها تحليلات الرسم البياني ، تم إجراء النسخ العكسي لتفاعل البوليميراز المتسلسل (RT-PCR) لمتغيرات لصق المرشح. تم نسخ إجمالي الحمض النووي الريبي من الخلايا الليفية البشرية المستخدمة في تجربة RNA-Seq عكسيًا من أجل توليد (كدنا) واحد تقطعت بهم السبل. تم تصميم الاشعال باستخدام برنامج Primer3 (44) لتضخيم المنطقة للتحقق من متغير لصق. ل LRR1، تم تصميم زوج من البادئات لتضخيم ثلاثة متغيرات لصق كما هو مقترح من تصور الرسم البياني ، بينما لـ PCM1 تم تصميم زوجين من البادئات عبر موقعين مختلفين من الوصلات. ل LRR1: التمهيدي الأمامي 5′-TGTTGAGCCTCTGTCAGCAG-3 والعكس 5′-GTGTGGGCAACAGAATGCAG-3 لـ PCM1 (مجموعة التمهيدي 1) التمهيدي الأمامي 5′-TCTGCTAATGTTGAGCGCCT-3 وعكس 5′-TGAAGCAGCAGCTAG-3 PCM1: (مجموعة التمهيدي 2) إلى الأمام 5′-ACGGAAGAAGACGCCAGTTT-3 وعكس 5′-AGCTGCAGCTCATGGAAGAG-3 ′. تم إجراء PCR لمدة 35 دورة (92 درجة مئوية ، 30 ثانية 60 درجة مئوية ، 90 ثانية 72 درجة مئوية ، 60 ثانية). تم تشغيل الأمبليكون على هلام agarose بنسبة 2 ٪ في وجود صبغة هلام DNA SYBR-Safe (Thermo Fisher ، Waltham ، MA ، الولايات المتحدة الأمريكية) والمواد الهلامية المرئية بواسطة إضاءة الأشعة فوق البنفسجية.

الوصول إلى خط الأنابيب ومولد الرسم البياني NGS المستند إلى الويب

يمكن تنزيل الوثائق وكود المصدر الكامل لحزمة NGS Graph Generator من: https://github.com/systems-immunology-roslin-institute/ngs-graph-generator. يحتاج المستخدم إلى توفير ملفات BAM و GTF لتشغيل خط الأنابيب. بالإضافة إلى ذلك ، قمنا بتطوير واجهة ويب مصممة لأغراض العرض بدلاً من تحليل بيانات المستخدم الخاصة ، والتي تسمح بتشغيل خط الأنابيب على عدد من مجموعات البيانات المحددة مسبقًا. تسمى واجهة الويب هذه مولد الرسم البياني NGS ويمكن الوصول إليها على الموقع http://seq-graph.roslin.ed.ac.uk. باستخدام هذا المورد ، يمكن للمستخدم تحديد ملف BAM من عينات الدورة الزمنية RNA-Seq من الخلايا الليفية البشرية أو البيانات من أطلس الأنسجة البشرية. يمكن للمستخدمين ضبط المعلمات المستخدمة بواسطة MegaBLAST لحساب تشابه القراءة وهناك خيار لتجاهل القراءات المتطابقة. يعتمد وقت المعالجة المطلوب على عدد القراءات التي تعين الجين محل الاهتمام. يجب على المستخدم تقديم عنوان بريده الإلكتروني وسيتم إبلاغه بمجرد انتهاء الوظيفة. سيفتح ملف تخطيط الرسم البياني الناتج تلقائيًا Graphia Professional (إذا كان مثبتًا). يتم توفير بروتوكولات إنشاء الرسم البياني والتصور في الملف التكميلي S1 ويتم توفير فيديو لتصورات الرسم البياني في الملف التكميلي S2.


خطة الدرس

يبدأ التحضير لتدريس هذا الدرس بحصول المعلم على حساب مستخدم Galaxy (كما هو موضح في ملف الدعم S1: RNA-seq Student Tutorial I) وتنزيل ملفات البيانات المناسبة من NCBI SRA في سجل المستخدم. في هذه المرحلة ، يمكن للمدرس العمل من خلال البرنامج التعليمي الكامل وفقًا لسرعته الخاصة ، وتحديد أي تغييرات محتملة على موقع Galaxy و / أو التعليمات التي قد تحتاج إلى توضيح. يجب على المعلم أيضًا أن يراجع بعناية عروض PowerPoint التقديمية المشروحة (ملف الدعم S4: RNA-seq Annotated Instructor PowerPoints) ويحتمل أن يقوم بقراءة الخلفية على التسلسل عالي الإنتاجية (19،20) و RNA-seq (7،18) و / أو Galaxy (15). تم تصميم الدرس لمعمل كمبيوتر على مدى ثلاث جلسات معملية (

إجمالي 8 ساعات). يجب تعريف الطلاب على التسلسل عالي الإنتاجية ومفهوم RNA-seq (على سبيل المثال، في قسم المحاضرات بالدورة) قبل بدء البرنامج التعليمي.

تحتوي الجلسة المعملية الأولى على أطول عرض تقديمي للمدرب ، حيث تمت مراجعة الخلفية التجريبية الرئيسية ونظام Galaxy الأساسي. قبل المختبر ، يتم تعيين الطلاب لقراءة Afgan et al. (2016) ، الذي يقدم Galaxy ، و Shanks et al. (2016) ، الذي يقدم أرابيدوبسيس/ نظام تجريبي للديدان الخيطية (14 ، 15). عادة ما يكون هناك وقت كافٍ لتقديم موجز (

30 دقيقة) مناقشة مائدة مستديرة حول Afgan et al. (2016) مقال قبل أن يبدأ الطلاب في العمل على البرنامج التعليمي (Supporting File S1: RNA-seq Student Tutorial I). قمنا بتعيين نصف الطلاب بشكل عشوائي للعمل مع ملف "نسخة متماثلة مصابة 1" (تم عزل الحمض النووي الريبي من A. thaliana الجذور المصابة ح. schachtii NCBI SRR2221834) ، والنصف الآخر يعمل مع ملف "تكرار التحكم 1" (RNA من غير مصاب A. thaliana جذور NCBI SRR2221833). يتبع الطلاب بعد ذلك البرنامج التعليمي بشكل فردي ، والذي يوفر إرشادات مفصلة ومصورة حول التسجيل للحصول على حساب مستخدم Galaxy وتحميل ملف التسلسل المناسب من NCBI SRA و A. thaliana ملف شرح الجينوم من Ensembl Plants في تاريخ مجراتهم. وبالتالي ، بحلول الوقت الذي يصل فيه الطلاب إلى نهاية البرنامج التعليمي الأول ، سيكونون قد أنشأوا حساب مستخدم Galaxy واكتسبوا جميع الملفات التي سيحتاجون إليها "للعمل على الأرض" خلال جلسة المعمل التالية. خلال البرنامج التعليمي الأول ، سيواجه الطلاب ثمانية أسئلة ، والتي تراجع مفاهيم التصميم التجريبي الأساسية وتطلب منهم استكشاف بياناتهم. نشجع الطلاب على الإجابة على الأسئلة أثناء عملهم خلال البرنامج التعليمي ، وتسليم إجاباتهم المكتوبة في نهاية فترة المعمل. بدلاً من ذلك ، يمكن للمدرسين أن يطلبوا من الطلاب الإجابة عن بعض الأسئلة أو جميعها شفهيًا أو عبر نظام اقتراع سريع الاستجابة أثناء عملهم خلال التمرين ، مما يسمح بالتغذية الراجعة "في الوقت المناسب" لتوضيح مناطق الارتباك المحتملة.

أثناء جلسة المختبر الثانية ، يقوم الطلاب بمراقبة جودة القراءة (باستخدام FastQC) ، وقراءة التشذيب (باستخدام Trimmomatic) ، وقراءة الخرائط (باستخدام HISAT2) (22-24) (ملف الدعم S2: RNA-seq Student Tutorial II). بعد تنفيذ هذه الخطوات "يدويًا" ، يقومون بإنشاء سير عمل حسابي باستخدام وظيفة "Create Workflow" في Galaxy. يسمح هذا للطلاب بتنزيل وتحليل ملفي بيانات RNA-seq إضافيين تلقائيًا ("النسخ المتماثلة المصابة" 2 + 3 أو "النسخ المتماثلة للتحكم" 2 + 3) بدون وقت عملي إضافي. قبل أن يبدأ الطلاب البرنامج التعليمي ، يقدم المعلم المفاهيم الكامنة وراء كل خطوة من هذه الخطوات الحسابية باستخدام شرائح PowerPoint المتوفرة (ملف الدعم S4: PowerPoint المعلم المشروح). مرة أخرى ، تبقي سلسلة من الأسئلة المضمنة الطلاب "على المسار الصحيح" من الناحية المفاهيمية للتأكد من أن البرنامج التعليمي لا يصبح مجرد تمرين "نقطة وانقر" طائش. عند اكتمال المختبر الثاني ، سيكون الطلاب قد أنشأوا جداول التعداد من ثلاث عينات "تحكم" أو ثلاث عينات "مصابة بالديدان الخيطية". مرة أخرى ، يتم تخزين جميع الملفات في Galaxy History الفردي لكل طالب (سعة 250 جيجابايت) ، لذلك ليست هناك حاجة للتخزين في الموقع.

خلال جلسة المختبر النهائية ، يبدأ الطلاب في رؤية "المردود" ذي الصلة بيولوجيًا لتجربة RNA-seq: قائمة بجميع الجينات التي يتم تنظيمها بشكل كبير أو منخفض في A. thaliana الجذور استجابةً لعدوى الديدان الخيطية (ملف الدعم S3: RNA-seq Student Tutorial III). أولاً ، يجب على الطلاب مشاركة بيانات جدول الأعداد مع "شريك" (باستخدام وظيفة محفوظات المشاركة في Galaxy) بحيث يكون لديهم ثلاثة مكررات "تحكم" وثلاثة مكررات "مصابة بالديدان الخيطية" في سجلهم (في Wooster ، قام كل فريق مكون من ثلاثة أشخاص بمعالجة الكل ستة ملفات بيانات خام من تلقاء نفسها). ثم يتم تحديد الجينات المعبر عنها تفاضليًا باستخدام DESeq2 (25). يتم تصدير قائمة الجينات المعبر عنها تفاضليًا من DESeq2 إلى Excel وفرزها. أخيرًا ، يتم تحديد الفئات الوظيفية ذات التمثيل الزائد بين الجينات التي تخضع للتنظيم الأعلى والأسفل باستخدام أداة تحليل قائمة الجينات Panther عبر الإنترنت (26). مرة أخرى ، يتم تقديم الأساس المفاهيمي وتشغيل كل هذه الأدوات في العرض التقديمي للمدرب "قبل المختبر". نظرًا لأن الطلاب يمكنهم الآن البدء في استخلاص المعنى البيولوجي من بياناتهم ، فإن الأسئلة المضمنة في البرنامج التعليمي الثالث تكون أكثر تكرارًا وتفصيلاً ، ويحتاج الطلاب عادةً إلى قضاء بعض الوقت خارج جلسة المختبر للإجابة عليها بدقة.

الجدول الزمني للدرس متوفر في الجدول 1 أدناه. بالإضافة إلى ذلك ، يتم توفير جميع المواد المرتبطة كملفات دعم. على وجه التحديد ، يتم توفير دروس الطلاب كملفات دعم S1-S3 (ملف دعم S1: RNA-seq Student Tutorial I Supporting File S2: RNA-seq Student Tutorial II Supporting File S3: RNA-seq Student Tutorial III). The three-part Instructor PowerPoint and a grading key for the tutorial questions are also provided (Supporting File S4: Annotated Instructor PowerPoints Supporting File S5: Instructor grading key). Finally, a document containing additional instructor background and instructions on identifying alternative RNA-seq data sets on NCBI SRA is included (Supporting File S6: Additional Instructor Background).


Table 1. RNAseq - Teaching Timeline


Conclusion

We conclude that the PLDA algorithm with power transformation and voomNSC classifiers may be the sparse methods of choice, if one aims to obtain accurate models for RNA-Seq classification. SVM and RF algorithms are the overall winners in nonsparse classifiers. When sparsity is the measure of interest, voomNSC classifiers should be the preferred methods. Along with its accurate and sparse performance, the voomNSC method is fast and applicable to even very large RNA-Seq datasets. Besides the prediction purpose, the voomNSC classifier can be used to identify the potential diagnostic biomarkers for a condition of interest. In this way, a small subset of genes, which is relevant to distinguishing the different classes, can be detected. These genes can then be investigated for further, such as discovering additional genes which have interactions with these genes. We leave extending this model with considering the known biomarkers as a follow-up research study.


Toxicogenomics – A Drug Development Perspective

6.3.1.2 NGS Technologies – Sequencing-based Approaches for Transcriptomics Study

The arrival of deep sequencing applications for transcriptome analyses, RNA-Seq , may circumvent the above-mentioned disadvantages of microarray platforms. In contrast to microarray, transcriptome sequencing studies have evolved from determining the sequence of individual cDNA clones to more comprehensive attempts to construct cDNA sequencing libraries representing portions of the species transcriptome [69–72] . The use of sequencing technologies to study the transcriptome is termed RNA-Seq [73,74] . RNA-Seq uses recently developed deep sequencing technologies. In general, a population of RNA is converted to a library of cDNA fragments by use of adaptors attached to one or both ends. Each molecule, with or without amplification, is then sequenced in a high-throughput manner to obtain short sequences from one or both ends. In principle, any high-throughput sequencing technology can be used for RNA-Seq. This methodology has tremendously reduced the sequencing cost and experimental complexity, as well as improved transcript coverage, rendering sequencing-based transcriptome analysis more readily available and useful to individual laboratories. RNA-Seq technologies have demonstrated some distinct advantages over hybridization-based approaches such as microarrays that likely will enable them to dominate in the near future.

Currently, there are four major commercially available NGS technologies: Roche/454, Illumina HiSeq 2000, Applied Biosystems SOLiD, and Helicos HeliScope. Illumina’s NGS platforms have a strong presence. Their sequencing-by-synthesis approach [75–78] utilizes fluorescently labeled reversible-terminator nucleotides on clonally amplified DNA templates immobilized to an acrylamide coating on the surface of a glass flow cell. The Illumina Genome Analyzer and the more recent HiSeq 2000 have been widely used for high-throughput massively parallel sequencing. In 2011, Illumina also released a lower throughput fast-turnaround instrument, the MiSeq, aimed at smaller laboratories and the clinical diagnostics market.

Although RNA-Seq is unlikely to completely supplant hybridization-based techniques in the near future, it offers a number of improvements over these technologies, for example:

unlike hybridization-based approaches, RNA-Seq does not depend on prior knowledge of the transcriptome, and is thus capable of new discovery and could reveal the precise boundaries of transcripts to single base precision [79]

the technique can also yield information about exon junctions, allowing the study of complex transcription units [80]

RNA-Seq has inherently low background and high sensitivity, and the upper detection limits are not constrained, together allowing the study of the transcription across a much wider range than for microarrays [56,81] .

A discussion of the considerable differences between available RNA-Seq technologies is beyond the scope of this chapter. However these technologies share many common features. First, the RNA sample is either mRNA enriched or ribosomal RNA depleted. The choice depends on the intent of the experiment. A gene expression profiling experiment would enrich the mRNA and ignore the other RNA species, while an experiment focused on transcriptome characterization would deplete the ribosomal RNA leaving the mRNA, ncRNA, miRNA, and siRNA. Next, the RNA is fragmented and size selected. The size of RNA fragments required depends on the specific technology. Third, the fragments are reverse-transcribed into cDNA and are clonally amplified and tagged so that they can be attached to beads. The bead-bound fragments are then placed in a fluidics chamber, placed in the sequencer, and sequenced. The chemistry of sequencing varies between the platforms. However, each chemical change in the fluidics chamber (pH in the case of Ion Torrent, fluorescence for the other technologies) corresponds to a specific base and the sequence is recorded. The technologies described above all rely on the amplification of fragments via polymerase chain reaction (PCR), which will introduce bias and change the relative proportions of the RNA species present. Other technologies, referred to as ‘single-molecule sequencing’ or ‘third-generation sequencing’, avoid this amplification step and its attendant bias. However, these technologies have not yet been widely adopted by the scientific community.

Taking all of these advantages into account, RNA-Seq represents a paradigm shift in transcriptomics studies, with concomitant benefits for toxicogenomics. This technology has already been extensively applied to biological research, resulting in significant and remarkable insights into the molecular biology of cells [82–84] . The pharmaceutical industry has already embraced sequence-based technologies, and it is likely that these technologies will have their impact throughout the drug discovery process [85–87] .


A Simple Guideline to Assess the Characteristics of RNA-Seq Data

Next-generation sequencing (NGS) techniques have been used to generate various molecular maps including genomes, epigenomes, and transcriptomes. Transcriptomes from a given cell population can be profiled via RNA-seq. However, there is no simple way to assess the characteristics of RNA-seq data systematically. In this study, we provide a simple method that can intuitively evaluate RNA-seq data using two different principal component analysis (PCA) plots. The gene expression PCA plot provides insights into the association between samples, while the transcript integrity number (TIN) score plot provides a quality map of given RNA-seq data. With this approach, we found that RNA-seq datasets deposited in public repositories often contain a few low-quality RNA-seq data that can lead to misinterpretations. The effect of sampling errors for differentially expressed gene (DEG) analysis was evaluated with ten RNA-seq data from invasive ductal carcinoma tissues and three RNA-seq data from adjacent normal tissues taken from a Korean breast cancer patient. The evaluation demonstrated that sampling errors, which select samples that do not represent a given population, can lead to different interpretations when conducting the DEG analysis. Therefore, the proposed approach can be used to avoid sampling errors prior to RNA-seq data analysis.


RNA-seq Tutorial (with Reference Genome)

This tutorial will serve as a guideline for how to go about analyzing RNA sequencing data when a reference genome is available. We will be going through quality control of the reads, alignment of the reads to the reference genome, conversion of the files to raw counts, analysis of the counts with DeSeq2, and finally annotation of the reads using Biomart. Most of this will be done on the BBC server unless otherwise stated.

The packages we’ll be using can be found here: Page by Dister Deoss

The data we will be using are comparative transcriptomes of soybeans grown at either ambient or elevated O3 المستويات. Each condition was done in triplicate, giving us a total of six samples we will be working with. The paper that these samples come from (which also serves as a great background reading on RNA-seq) can be found here:

The samples we will be using are described by the following accession numbers SRR391535, SRR391536, SRR391537, SRR391538, SRR391539, and SRR391541. They can be found in results 13 through 18 of the following NCBI search:

The script for downloading these .SRA files and converting them to fastq can be found in

/common/RNASeq_Workshop/Soybean/Quality_Control as the file fastq-dump.sh . The fastq files themselves are also already saved to this same directory.

Quality Control on the Reads Using Sickle:

Step one is to perform quality control on the reads using Sickle. We are using unpaired reads, as indicated by the “se” flag in the script below. The -f flag designates the input file, -o is the output file, -q is our minimum quality score and -l is the minimum read length. The trimmed output files are what we will be using for the next steps of our analysis.

The script for running quality control on all six of our samples can be found in

/common/RNASeq_Workshop/Soybean/Quality_Control as the file sickle_soybean.sh . The output trimmed fastq files are also stored in this directory.

Alignment of Trimmed Reads Using STAR:

For this next step, you will first need to download the reference genome and annotation file for Glycine max (soybean). The files I used can be found at the following link:

You will need to create a user name and password for this database before you download the files. Once you’ve done that, you can download the assembly file Gmax_275_v2 and the annotation file Gmax_275_Wm82.a2.v1.gene_exons. Having the correct files is important for annotating the genes with Biomart later on.

Now that you have the genome and annotation files, you will create a genome index using the following script:

You will likely have to alter this script slightly to reflect the directory that you are working in and the specific names you gave your files, but the general idea is there. Indexing the genome allows for more efficient mapping of the reads to the genome.

The assembly file, annotation file, as well as all of the files created from indexing the genome can be found in

Now that you have your genome indexed, you can begin mapping your trimmed reads with the following script:

The –genomeDir flag refers to the directory in which your indexed genome is located. The output we get from this are .BAM files binary files that will be converted to raw counts in our next step.

The script for mapping all six of our trimmed reads to .bam files can be found in

/common/RNASeq_Workshop/Soybean/STAR_HTSEQ_mapping as the file star_soybean.sh . The .bam output files are also stored in this directory.

Convert BAM Files to Raw Counts with HTSeq:

Finally, we will use HTSeq to transform these mapped reads into counts that we can analyze with R. “-s” indicates we do not have strand specific counts. “-r” indicates the order that the reads were generated, for us it was by alignment position. “-t” indicates the feature from the annotation file we will be using, which in our case will be exons. “-i” indicates what attribute we will be using from the annotation file, here it is the PAC transcript ID. We identify that we are pulling in a .bam file (“-f bam”) and proceed to identify, and say where it will go.

The script for converting all six .bam files to .count files is located in

/common/RNASeq_Workshop/Soybean/STAR_HTSEQ_mapping as the file htseq_soybean.sh. The .count output files are saved in

Analysis of Counts with DESeq2:

For the remaining steps I find it easier to to work from a desktop rather than the server. So you can download the .count files you just created from the server onto your computer. You will also need to download R to run DESeq2, and I’d also recommend installing RStudio, which provides a graphical interface that makes working with R scripts much easier. They can be found here:

The R DESeq2 library also must be installed. To install this package, start the R console and enter:

The R code below is long and slightly complicated, but I will highlight major points. This script was adapted from here and here, and much credit goes to those authors. Some important notes:

  • The most important information comes out as “-replaceoutliers-results.csv” there we can see adjusted and normal p-values, as well as log2foldchange for all of the genes.
  • par(mar) manipulation is used to make the most appealing figures, but these values are not the same for every display or system or figure. Much documentation is available online on how to manipulate and best use par() and ggplot2 graphing parameters: DESeq2 Manual

The .csv output file that you get from this R code should look something like this:

Below are some examples of the types of plots you can generate from RNAseq data using DESeq2:

Merging Data and Using Biomart:

To continue with analysis, we can use the .csv files we generated from the DeSEQ2 analysis and find gene ontology. This next script contains the actual biomaRt calls, and uses the .csv files to search through the Phytozome database. If you are trying to search through other datsets, simply replace the “useMart()” command with the dataset of your choice. Again, the biomaRt call is relatively simple, and this script is customizable in which values you want to use and retrieve.

After fetching data from the Phytozome database based on the PAC transcript IDs of the genes in our samples, a .txt file is generated that should look something like this:

Finally, we want to merge the deseq2 and biomart output.

We get a merged .csv file with our original output from DESeq2 and the Biomart data:

Visualizing Differential Expression with IGV:

To visualize how genes are differently expressed between treatments, we can use the Broad Institute’s Interactive Genomics Viewer (IGV), which can be downloaded from here: IGV

We will be using the .bam files we created previously, as well as the reference genome file in order to view the genes in IGV. IGV requires that .bam files be indexed before being loaded into IGV. There is a script file located in

/common/RNASeq_Workshop/Soybean/STAR_HTSEQ_mapping/bam_files called bam_index.sh that will accomplish this. The .bam files themselves as well as all of their corresponding index files (.bai) are located here as well. The reference genome file is located at

You will need to download the .bam files, the .bai files, and the reference genome to your computer. Once you have IGV up and running, you can load the reference genome file by going to Genomes -> Load Genome From File… in the top menu. Now you can load each of your six .bam files onto IGV by going to File -> Load from File… in the top menu. Be sure that your .bam files are saved in the same folder as their corresponding index (.bai) files. Once you have everything loaded onto IGV, you should be able to zoom in and out and scroll around on the reference genome to see differentially expressed regions between our six samples.

The differentially expressed gene shown is located on chromosome 10, starts at position 11,454,208, and codes for a transferrin receptor and related proteins containing the protease-associated (PA) domain. This information can be found on line 142 of our merged csv file. You can search this file for information on other differentially expressed genes that can be visualized in IGV!


شاهد الفيديو: What is RNA. Genetics. Biology. FuseSchool (يوليو 2022).


تعليقات:

  1. Kiefer

    لا تغلي طفلًا في حليب والدته ، فأنت تهرس نفس الشيء للمرة الألف ، وقرأتك أكثر فأكثر مملًا

  2. Jamile

    إنه غير موجود على الإطلاق.

  3. Cayle

    سأعرف ، شكرًا جزيلاً لك على مساعدتك في هذا الأمر.

  4. Garnet

    يا لها من كلمات مؤثرة :)

  5. Kajinn

    عوض!



اكتب رسالة