معلومة

تساعد تنبؤات Rosetta ab initio واللياقة البدنية للتفاعل بين البروتين والبروتين

تساعد تنبؤات Rosetta ab initio واللياقة البدنية للتفاعل بين البروتين والبروتين



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

لقد صممت العديد من البروتينات التي أتوقع أن يكون لها تفاعلات مع بروتين آخر باستخدام طريقة Conjoint Triad القائمة على التسلسل. أود أن أعرف أيًا منها يُتوقع من الناحية الهيكلية أن ترسو ولديها تفاعلات. لقد قمت بتثبيت برنامج Rosetta وأطلعت على الأمثلة قليلاً. ليس لدى Rosetta الكثير من التوثيق حول تصميم البروتين واختيار اللياقة البدنية. هل يمكن لأي شخص أن يرشدني عبر خط العملية بسطر أخذ فاستا مع سلسلة من البروتينات من خلال جيل ab initio pdb الخاص بـ Rosetta ومن ثم كيف وأين تبحث عن ملاءمة كل تفاعل / إرساء للبروتينات؟ قرأت أيضًا في "تصميم خصوصية تفاعل البروتين والبروتين باستخدام الأساليب الحسابية وفحص المكتبة التجريبية" الصفحة 91 أنه كان من الممكن إنشاء مجموعات بروتينية معينة تتناسب مع بنية باستخدام Rosetta. كيف تفعل ذلك؟ اشكرك :)

روابط Rosetta commons إلى البرامج الإضافية الإضافية ولكنها تغفل Sparks-X الحاسمة. لقد وجدت Sparks-X من على صفحة الويب هذه. ووجدت أن الكود الخاص بـ make_fragments.pl يحتاج إلى إجراء العديد من التغييرات حتى يعمل بشكل صحيح. يتم سرد العديد من الملفات في make_fragments.pl. تم العثور على ملفين بدون روابط pdb_seqres.txt وإدخالات .idx في RSCB أدناه.

تتطلب قاعدة بيانات NCBI nr حوالي 100 جيجا من المساحة الحرة للتحميل والمعالجة بشكل صحيح. أي شيء أقل من ذلك ينتج عنه أخطاء.

يتطلب make_fragments.pl جينًا واحدًا في ملف fasta. جينات متعددة في ملف فاستا يتسبب في تعطله.

يحتوي Psipred nolonger على dat4 لذا يحتاج هذا الخط في make_fragments إلى إزالة dat4.

"$ PSIPRED sstmp.mtx $ PSIPRED_DATA / weights.dat $ PSIPRED_DATA / weights.dat2 $ PSIPRED_DATA / weights.dat3 $ PSIPRED_DATA / weights.dat4> psipred_ss" ،

لا تنتهي أجزاء make_fragments الخاصة بي دائمًا من أنها تؤدي أحيانًا إلى ظهور خطأ

خطأ: خطأ في القراءة في FragmentPicker :: read_spine_x (): لا يتطابق مع حجم الاستعلام!

حدث هذا الخطأ بسبب حذف ملف ^ M في ملف fasta باستخدام vi.

أحاول تجاوز منتقي الأجزاء باستخدام مجموعة أدوات csrosetta من .csrosetta.org /

يجب استخدام إصدار libstdc ++ 6 32 بت لـ talos + لقد استخدمت جهاز Ubuntu 32 بت لنسخ /usr/lib/libstdc++.so.6 وتحميله هنا. http://www.mediafire.com/؟j0133qqwiilsuz1

لا يُنشئ cs-rosetta شظايا لسبب غير معروف. لقد أرسلت بريدًا إلكترونيًا إلى المنشئ وأرسلت بريدًا إلكترونيًا لدعم مشاعات Rosetta أيضًا. في الوقت الحالي أوصي بخادم الإنترنت روبرتا.

توجد أمثلة على كيفية استخدام التعبئة والتغليف المُسبَق في الإرساء في اختبارات rosetta_tests.

يمكن تصميم PPI عن طريق ربط البروتين ببروتين آخر ثم تشغيل تحمل التسلسل. على الرغم من أن إعادة التقديم لا يبدو أنها قادرة على قصر التغييرات على nt معينة في هذه المرحلة.

تحمل التسلسل خطأ إضافي في rotamer ويملأ الذاكرة وملف الصفحة لبروتينات معينة إذا تم استخدام أعلام السلسلة "ex". كما أنه يتجاهل أحيانًا إعادة الملف ، لذا تحقق جيدًا من نتائج البرامج النصية الأولية قبل البدء في دراسة متعددة الأجيال.

يحتوي Ab initio Relax على خطأ يمنعه من العمل مرتين في نفس الدليل. قم بإزالة default.out لإعادة تشغيل توقع الهيكل.

يمكن إجبار الإرساء على موقع واحد باستخدام ملف قيود ولكن يجب إيقاف تشغيل خياري radomize والدوران حتى يعمل بشكل صحيح.

- القيود: cst_weight عدد صحيح - القيود: cst_file cstfile

http://www.rosettacommons.org/manuals/archive/rosetta3.4_user_guide/de/d50/constraint_file.html

http://www.rcsb.org/pdb/static.do؟p=general_information/about_pdb/summaries.html


قد تحمل Rosetta مفتاحًا للتنبؤ بطي البروتين

12 فبراير 2001 و [مدش] أثبتت طريقة حسابية طورها الباحث في معهد هوارد هيوز الطبي ديفيد بيكر وزملاؤه نجاحًا كبيرًا في التنبؤ بالبنية ثلاثية الأبعاد لبروتين مطوي من تسلسله الخطي للأحماض الأمينية.

أظهر Rosetta ، وهو اسم التقنية الحسابية التي طورها بيكر وزملاؤه في جامعة واشنطن ، نجاحًا مذهلاً في التنبؤ بالبنية ثلاثية الأبعاد للبروتينات خلال التقييم النقدي الرابع لتقنيات التنبؤ ببنية البروتين (CASP4).

في تجربة CASP4 (http://predictioncenter.llnl.gov/casp4) ، التي بدأت في أبريل 2000 ، أنتجت أكثر من 100 مجموعة بحثية هياكل ثلاثية الأبعاد لـ 40 بروتينًا مرشحًا. تم اعتبار البروتين المرشح ، أو الهدف ، مؤهلًا لـ CASP4 إذا تم استنتاج هيكله ثلاثي الأبعاد من خلال التحليل الهيكلي ولكن لم يتم نشره بعد من قبل الباحثين أو نشره في قاعدة بيانات بنية البروتين. أعطيت كل مجموعة بحثية تسلسل الأحماض الأمينية للبروتينات المستهدفة ، وطُلب منهم تطوير نماذج ثلاثية الأبعاد للبروتينات المطوية. تم عرض نتائج CASP4 ومناقشتها في مؤتمر عقد في Asilomar ، كاليفورنيا في أوائل ديسمبر.

حتى قبل بضع سنوات ، كما يقول بيكر ، كان النجاح في التنبؤ بالكيفية التي تتخذ بها البروتينات أشكالها المعقدة ثلاثية الأبعاد أمرًا مستبعدًا للغاية إذا لم يكن هناك بروتين مرتبط بهيكل معروف. بالنسبة للبروتينات التي يشبه تسلسلها بروتينًا ذا بنية معروفة ، يمكن استخدام البنية ثلاثية الأبعاد للبروتين المعروف "كقالب" لاستنتاج بنية البروتين غير المعروفة. ومع ذلك ، فإن حوالي 60 في المائة من متواليات البروتين الناشئة عن مشاريع تسلسل الجينوم ليس لها متماثلات ذات بنية معروفة.

على الرغم من عدم وجود نجاح سابق ، تابع الباحثون مشكلة التنبؤ ببنية البروتين ثلاثي الأبعاد فقط من تسلسل الأحماض الأمينية و mdashcalled ab initio Forecast & mdash لأنه أحد المشاكل المركزية في علم الأحياء الجزيئي الحسابي. في الآونة الأخيرة ، اكتسبت المشكلة أهمية أكبر حيث قدمت جهود تسلسل الجينات البشرية للباحثين كميات هائلة من بيانات تسلسل الجينات الخام

قال بيكر: "إحدى مشاكل التنبؤ بالبنية هي أنه من السهل جدًا إنتاج برنامج يتنبأ بشكل صحيح ببنية البروتين إذا كنت تعرف الهيكل الصحيح مسبقًا". "من خلال تحدي الباحثين لإنتاج نماذج قبل معرفة الإجابة الصحيحة ، قدمت تجارب CASP دفعة لا تقدر بثمن في هذا المجال."

تعتمد خوارزمية Rosetta الحاسوبية للتنبؤ بطي البروتين على الدراسات التجريبية لطي البروتين بواسطة مختبر Baker & rsquos والعديد من الآخرين. قال بيكر: "أثناء الطي ، تومض كل قطعة محلية من السلسلة بين مجموعة فرعية مختلفة من التوافقات المحلية". "الطي إلى الهيكل الأصلي يحدث عندما تسمح المطابقات التي تتبناها القطاعات المحلية وتوجهاتها النسبية بدفن المخلفات الكارهة للماء ، وإقران خيوط بيتا ، وغيرها من الخصائص منخفضة الطاقة لهياكل البروتين الأصلية. في خوارزمية رشيد ، توزيع المطابقة التي لوحظت لكل مقطع تسلسل قصير في هياكل بروتينية معروفة تؤخذ كتقريب لمجموعة المطابقات المحلية التي سيأخذها مقطع التسلسل أثناء الطي. ثم يبحث البرنامج عن مجموعة هذه المطابقات المحلية التي لديها أقل طاقة إجمالية. "

قال بيكر إن النتائج التي تم الإبلاغ عنها باستخدام Rosetta في اجتماع CASP4 كشفت عن إحراز تقدم هائل في التنبؤ بهيكل ab initio. على سبيل المثال ، قبل أربع سنوات ، في اجتماع CASP2 ، كان هناك عدد قليل من التنبؤات المعقولة للهيكل المبدئي ، كما قال. "على النقيض من ذلك ، في تجربة CASP4 ، أظهر تحليل الهياكل المتوقعة أنه بالنسبة لغالبية البروتينات التي لا تتماثل مع بروتينات ذات بنية معروفة ، فقد أنتجنا نماذج منخفضة الدقة معقولة لشظايا كبيرة تصل إلى حوالي 90 من الأحماض الأمينية.

"ومن المثير للاهتمام ، أن بعض الهياكل التي نتوقعها كانت مشابهة تمامًا لهياكل البروتينات التي تم حلها بالفعل ، والتي تبين أن لها وظائف مماثلة للبروتين المستهدف ، على الرغم من عدم وجود تشابه كبير في التسلسل. وهكذا ، قدمت الهياكل المتوقعة لدينا أدلة حول وظيفة لا يمكن الحصول عليها بالطرق التقليدية لمقارنة التسلسل ".

يعطي بيتر كولمان ، الخبير في النمذجة الجزيئية الحسابية في جامعة كاليفورنيا ، سان فرانسيسكو ، والذي شارك في تجربة CASP4 ، منظورًا إضافيًا: "أعطى مقيمو الهياكل لتنبؤات ab initio نقطتين لبنية كانت ' من بين أفضل النقاط ، "نقطة واحدة لهيكل كان" جيدًا جدًا "وصفرًا إذا كان الهيكل بعيدًا عن الهيكل الصحيح بشكل معقول.

"الشيء المذهل هو أن مجموعة ديفيد بيكر حصلت على 31 نقطة وكانت المجموعة التالية الأفضل 8 نقاط. إنه مثل لعبة البيسبول في عام 1927 ، عندما سجل بيب روث 60 نقطة على أرضه وسجل الوصيف 14 نقطة [و] لم تسجل بعض الفرق بقدر ما هو.

قال كولمان: "مع ذلك ، لا يزال هناك بعض الطريق للتنبؤ بهذه الهياكل بدقة تجريبية ، لكننا جميعًا نأمل أن يتقدم هذا أيضًا".

يوافق بيكر على ذلك: "في حين أن هذه الهياكل ثلاثية الأبعاد ليست مفصلة بما فيه الكفاية ، على سبيل المثال ، لتصميم الأدوية القائمة على البنية ، فإنها يمكن أن تسفر عن رؤى لا تقدر بثمن حول وظيفة البروتينات غير المعروفة ،" قال بيكر. "لذلك ، هدفنا هو استخدام طريقة التنبؤ ببنية ab initio لإنتاج نماذج ثلاثية الأبعاد لبروتينات ذات وظيفة غير معروفة. وباستخدام هذه النماذج ، يمكننا البحث في قاعدة بيانات هياكل البروتين لتحديد ما إذا كانت متشابهة مع بروتينات ذات وظيفة معروفة. من هذا التشابه ، قد يكون من الممكن استخلاص استنتاجات وظيفية حول ما تفعله هذه البروتينات.

قال بيكر: "نحن متحمسون جدًا الآن لمحاولة القيام بذلك على نطاق واسع ، لعمل استنتاجات وظيفية للجزء الكبير من البروتينات التي لا يمكن للمرء حاليًا قول أي شيء عنها على الإطلاق". "تكمن قوة هذه الأساليب في أنه نظرًا لعدم الحاجة إلى معلومات بخلاف تسلسل الأحماض الأمينية ، يمكن للمرء أن يتصور المرور عبر الجينوم وتوليد الهياكل وربما الرؤى الوظيفية لكل بروتين."


1 المقدمة

يتم تنفيذ عمل البروتين والتصميم في مجموعتي باستخدام برنامج كمبيوتر يسمى Rosetta. يوجد في صميم Rosetta وظائف محتملة لحساب طاقات التفاعلات داخل وبين الجزيئات الكبيرة ، وطرق التحسين للعثور على أقل بنية طاقة لتسلسل الأحماض الأمينية (التنبؤ ببنية البروتين) أو معقد البروتين & # x02013 ، ولإيجاد أقلها تسلسل الأحماض الأمينية للطاقة لبروتين أو بروتين ومركب بروتين # x02013 (تصميم بروتين). يتم تحسين كل من الوظائف المحتملة وخوارزميات البحث باستمرار بناءً على التعليقات من اختبارات التنبؤ والتصميم (انظر التخطيطي في الشكل 1). هناك مزايا كبيرة في تطوير برنامج كمبيوتر واحد لمعالجة هذه المشاكل المتنوعة تمامًا: أولاً ، توفر التطبيقات المختلفة اختبارات مكملة جدًا للنموذج الفيزيائي الأساسي (الفيزياء الأساسية / الكيمياء الفيزيائية بالطبع هي نفسها في جميع الحالات) ، وثانيًا ، تتضمن العديد من المشكلات ذات الاهتمام الحالي ، مثل تصميم بروتين العمود الفقري المرن والبروتين ورسو البروتين # x02013 مع مرونة العمود الفقري مجموعة من طرق التحسين المختلفة.

رسم تخطيطي لتنبؤ هيكل رشيد وجهود التصميم.

في الأقسام التالية ، ألخص التقدم الأخير وأبرز في كل مجال من المجالات المختلفة وأوضح تطور النموذج المادي. سأركز بشكل خاص على النتائج من كل مجال من المجالات التي تشير إلى إحراز تقدم حقيقي في النمذجة عالية الدقة.

(أ) تصميم بنية البروتين

على مدى السنوات العديدة الماضية ، استخدمنا أسلوب تصميم البروتين الحسابي الخاص بنا لتحقيق الاستقرار بشكل كبير في العديد من البروتينات الصغيرة عن طريق إعادة تصميم كل بقايا من تسلسلها بالكامل (Dantas وآخرون. 2003) ، لإعادة تصميم تشكيل العمود الفقري للبروتين (Nauli وآخرون. 2001) ، لتحويل بروتين أحادي إلى ديمر مبادل حبلا (Kuhlman وآخرون. 2002) ، ولتثبيت الإنزيم بالحرارة (Korkegian وآخرون. 2005). كان من أبرز ما يميز إعادة تصميم مسار الطي للبروتين G ، وهو بروتين صغير يحتوي على دبابيس شعر بيتا مفصولة بحلزون ألفا. في البروتين الذي يحدث بشكل طبيعي ، يتم تعطيل دبوس الشعر الأول ويتم تشكيل دبوس الشعر الثاني بخطوة الحد من المعدل في الطي ، ولكن في متغير معاد تصميمه حيث تم تثبيت دبوس الشعر الأول بشكل كبير مع عدم استقرار دبوس الشعر الثاني ، يتم عكس ترتيب الأحداث : يتم تشكيل دبوس الشعر الأول وتعطل دبوس الشعر الثاني في حالة الانتقال القابلة للطي (Nauli وآخرون. 2002). تُظهر القدرة على إعادة تصميم مسارات طي البروتين بعقلانية أن فهمنا لمحددات طي البروتين قد تقدم بشكل كبير.

المثير بشكل خاص في الآونة الأخيرة هو تحقيق التحدي الكبير لتصميم البروتين الحسابي و # x02014 إنشاء بروتينات جديدة بهياكل ثلاثية الأبعاد تم اختيارها عشوائيًا. لقد طورنا استراتيجية حسابية عامة لإنشاء مثل هذه الهياكل البروتينية الجديدة التي تدمج مرونة العمود الفقري الكاملة في تحسين التسلسل القائم على الروتامر. تم تحقيق ذلك عن طريق الدمج البداية تنبؤ بنية البروتين ، تنقية الطاقة على المستوى الذري ، وتصميم التسلسل في رشيد. تم استخدام هذا الإجراء لتصميم 93 بروتينًا متبقيًا يسمى Top7 بتسلسل وطوبولوجيا جديدة. تم العثور على Top7 تجريبيًا ليكون أحاديًا ومطويًا ، ويتشابه التركيب البلوري للأشعة السينية لـ Top7 بشكل لافت للنظر (r.m.s.d. = 1.2 & # x0200a & # x0212b) لنموذج التصميم (الشكل 2 Kuhlman وآخرون. 2003). التصميم الناجح لطيّة البروتين الكروية الجديدة والتوافق الوثيق جدًا للبنية البلورية مع نموذج التصميم له آثار واسعة على تصميم البروتين والتنبؤ بهيكل البروتين ، ويفتح الباب لاستكشاف مناطق كبيرة من عالم البروتين حتى الآن. لوحظ في الطبيعة.

مقارنة بين هيكل بلوري Top7 للأشعة السينية (أحمر) ونموذج التصميم (أزرق). (أ) تراكب كالفا (ب) ، تفاصيل التعبئة الجانبية في الصميم.

(ب) تصميم تفاعلات البروتين & # x02013

لاستكشاف امتداد هذه الطرق لتشمل تفاعلات البروتين & # x02013 ، وعلى وجه الخصوص لإعادة تصميم خصوصية التفاعل ، اخترنا كنظام نموذجي المركب عالي التقارب بين Colicin E7 Dnase وبروتين المناعة المثبط المشابه. من المتوقع أن تتفاعل أزواج بروتين Novel Dnase & # x02013inhibitor بإحكام مع بعضها البعض ولكن ليس مع بروتينات النوع البري باستخدام النموذج المادي الموصوف أعلاه وتعديل إستراتيجية التصميم الحسابي القائمة على البحث باستخدام rotamer والتي تتضمن عناصر من التصميم الإيجابي والسلبي. أظهر التوصيف التجريبي أن مجمعات البروتين المصممة لها صلات شبه نانوية ، وظيفية ومحددة في الجسم الحي، ولديها أكثر من ترتيب من حيث الاختلاف في التقارب بين الأزواج المتشابهة وغير المتشابهة في المختبر (كورتمي وآخرون. 2004). يجب أن يكون النهج قابلاً للتطبيق لتصميم أزواج البروتين المتفاعلة بخصائص جديدة لتحديد وإعادة هندسة شبكات تفاعل البروتين في الخلايا الحية.

بالتعاون مع المجموعات البحثية للدكتور باري ستودارد والدكتور راي مونات ، قمنا بتوليد نوكلياز اصطناعي عالي التحديد من خلال دمج مجالات نوكليازات داخلية موجبة I-DmoI و I-CreI من خلال التحسين الحسابي لمجال جديد & # x02013 واجهة المجال بين هذه البروتينات غير المتفاعلة عادة . الإنزيم الناتج ، E-DreI (مهندس I-DmoI / I-CreI) ، يربط موقعًا طويلًا مستهدفًا من الحمض النووي الخيمري بتقارب نانومولار ، ويقطعه بدقة بمعدل مكافئ لأبويه الطبيعيين (Chevalier) وآخرون. 2002). نحن نحاول حاليًا تطوير جيل جديد بالكامل من نوكليازات داخلية جديدة من خلال إعادة تصميم واجهة البروتين و # x02013DNA باستخدام امتداد لمنهجية التصميم الخاصة بنا إلى واجهات البروتين و # x02013 (Havranek) وآخرون. 2004).

في كلا النظامين ، كان من الممكن تحديد الهياكل البلورية للأشعة السينية للمجمعات المصممة. كما في حالة Top7 ، فإن الهياكل الفعلية قريبة جدًا من نماذج التصميم ، والتي تعد بمثابة التحقق المستقل والمهم من دقة نهجنا في النمذجة عالية الدقة.

(ج) توقع بنية البروتين

صورة طي البروتين التي تحفز نهجنا البداية تنبؤ البنية الثلاثية للبروتين هو أن التفاعلات المحلية المعتمدة على التسلسل تحيز أجزاء من السلسلة لأخذ عينات من مجموعات متميزة من الهياكل المحلية ، وأن التفاعلات غير المحلية تختار أدنى الهياكل الثلاثية للطاقة الحرة من العديد من التطابقات المتوافقة مع هذه التحيزات المحلية. عند تنفيذ الاستراتيجية المقترحة في هذه الصورة ، نستخدم نماذج مختلفة للتعامل مع التفاعلات المحلية وغير المحلية. بدلاً من محاولة نموذج مادي للتسلسل المحلي & # x02013 علاقات البنية ، ننتقل إلى قاعدة بيانات البروتين ونأخذ توزيع الهياكل المحلية المعتمدة بواسطة مقاطع تسلسل قصير (أقل من 10 بقايا في الطول) في هياكل ثلاثية الأبعاد معروفة كتقريب لـ توزيع الهياكل التي تم أخذ عينات منها بواسطة الببتيدات المعزولة مع التسلسلات المقابلة. التفاعلات الأولية غير المحلية التي تم أخذها في الاعتبار هي الدفن الكارهة للماء ، والكهرباء الساكنة ، والترابط الهيدروجيني الرئيسي والحجم المستبعد. يتم إنشاء الهياكل التي تتوافق في وقت واحد مع كل من تحيزات بنية التسلسل المحلي والتفاعلات غير المحلية عن طريق تقليل طاقة التفاعل غير المحلية في الفضاء المحدد بواسطة توزيعات البنية المحلية باستخدام التلدين المحاكي.

تم اختبار Rosetta في تجارب التنبؤ بهيكل البروتين CASP نصف السنوية والتي يتم فيها تحدي المتنبئين لعمل تنبؤات عمياء لهياكل التسلسلات التي تم تحديد هياكلها ولكن لم يتم نشرها بعد. منذ CASP3 في عام 1998 ، كانت Rosetta هي الطريقة الأفضل أداءً باستمرار البداية التنبؤ ، كما يتضح من التقارير المنشورة للمقيمين المستقلين. على سبيل المثال ، تم اختبار Rosetta على 21 بروتينًا تم تحديد هياكلها ولكن لم يتم نشرها بعد في تجربة CASP4. كانت تنبؤات هذه البروتينات ، التي تفتقر إلى تشابه التسلسل القابل للاكتشاف مع أي بروتين بهيكل محدد مسبقًا ، ذات دقة واتساق غير مسبوقين (Bonneau وآخرون. 2002). تم إجراء تنبؤات ممتازة أيضًا في تجربة CASP5 (برادلي وآخرون. 2003). بتشجيع من هذه النتائج الواعدة ، قمنا بإنشاء نماذج لجميع عائلات البروتين الكبيرة التي يقل طولها عن 150 من الأحماض الأمينية (Bonneau وآخرون. 2002). بالنسبة لـ CASP6 (ديسمبر 2004) ، قمنا بتطوير طرق محسنة للتنبؤ ببروتين الصفائح بيتا ، وسعدت أيضًا أن العديد من المجموعات العليا الأخرى استخدمت برنامج Rosetta ، والذي كان متاحًا مجانًا (كود المصدر بالإضافة إلى البرنامج القابل للتنفيذ) في الماضي عدة سنوات.

منذ CASP4 كنت مقتنعًا بأن تقدمًا حقيقيًا في التنبؤ الهيكلي (كلاهما من جديد التنبؤ والنمذجة المقارنة) فقط من التقدم في صقل الدقة العالية. في حين أن تنبؤات Rosetta في CASP كانت جيدة جدًا على نطاق نسبي ، إلا أنها كانت ضعيفة على نطاق مطلق ، مع صحة الهيكل تقريبًا في الحالات المواتية في واحد على الأقل من كل خمسة تنبؤات مقدمة ولكن التفاصيل عالية الدقة للجزء الأكبر مخطئ تماما. يعد تحسين هذه النماذج التقريبية أمرًا بالغ الأهمية لتحسين دقة النماذج ، وربما بشكل أكثر أهمية ، لتحسين موثوقيتها. ينشأ استقرار البروتينات في جزء كبير منه من التعبئة التكميلية القريبة من السلاسل الجانبية في لب البروتين ، وبالتالي فإن تقييم المعقولية المادية للنموذج يتطلب نمذجة هذه التفاعلات. لسوء الحظ ، تتعطل التعبئة الجانبية التكميلية بسبب التغييرات في تشكيل العمود الفقري لحجم الأخطاء في نماذج Rosetta النموذجية منخفضة الدقة. ومن ثم ، كان التركيز الرئيسي لعملنا في السنوات الخمس الماضية هو تطوير جميع طرق صقل الذرة عالية الدقة التي يمكن أن تدفع من جديد نماذج نحو الهيكل الأصلي وبالتالي تحويل تنبؤاتنا من التخمينات المتعلمة منخفضة الدقة إلى نماذج موثوقة عالية الدقة. بينما تمكنا من إحراز تقدم مطرد في كل من مشكلة أخذ العينات ووظيفة الطاقة ، فقد تم إحراز تقدم ملموس في ذلك من جديد صقل التنبؤ كان صغيرًا حتى وقت قريب. ومع ذلك ، فقد تبين أن الطرق المحسّنة مفيدة جدًا لكل من تصميم Top7 ، الموصوف أعلاه ، حيث كانت حاسمة في خطوة تحسين العمود الفقري ، ولطريقة إرساء البروتين و # x02013 ، الموصوفة أدناه ، والتي تستخدم نفس وظيفة الطاقة و الكثير من نفس منهجية التحسين.

كان من أبرز ميزات CASP6 بالنسبة لي الهدف 281 ، الأول من جديد التنبؤ الأعمى الذي استخدم منهجيتنا للتحسين عالي الدقة لتحقيق دقة تقترب من الدقة العالية. نظرًا لأن التسلسل كان قصيرًا نسبيًا (76 وحدة بنائية) ، فقد كان لدينا وقت لتطبيق منهجية كل صقل الذرة ليس فقط على التسلسل الأصلي ولكن أيضًا على تسلسل العديد من المتماثلات. تبين أن مركز أقل مجموعة طاقة من الهياكل قريب بشكل ملحوظ من الهيكل الأصلي (1.5 & # x0200a & # x0212b). خفض بروتوكول الصقل عالي الدقة من r.m.s.d. من 2.2 إلى 1.5 & # x0200a & # x0212b وحزمة السلاسل الجانبية بطريقة أصلية إلى حد ما مثل الطريقة في قلب البروتين. منذ الصيف الماضي ، استخدمنا هذا البروتوكول على عدد من البروتينات الصغيرة جدًا والنتائج واعدة جدًا. لا يزال هناك الكثير الذي يتعين القيام به بشأن هذه المشكلة الصعبة للغاية ، وسيظل تحسين أساليب الصقل محور عملنا خلال فترة الخمس سنوات القادمة. مشكلة ملموسة للغاية ذات أهمية عملية كبيرة هي مشكلة صقل النمذجة المقارنة وثيقة الصلة: بالنسبة للبروتينات ذات التشابه التسلسلي لبروتينات ذات بنية معروفة ، يمكن بناء النماذج بشكل أساسي من خلال & # x02018copying & # x02019 إحداثيات المتماثل ، ولكن معظم الجهود لتحسين في هيكل نموذج البداية هذا قد فشل (لقد حققنا بعض النجاح مؤخرًا باستخدام المعلومات التطورية لتوجيه أخذ العينات Qian وآخرون. 2004). ومن ثم ، لا تمثل النماذج المقارنة عادةً الخصائص الهيكلية التي تختلف بين المتماثلات بدقة ، وهو عيب خطير يضعف التنبؤ بخصوصية التفاعل والاستخدامات الأخرى للنماذج. وبالتالي ، أثناء تطويرنا لأساليب محسّنة ، سنختبرها على كلا المستويين من جديد مشكلة صقل الهيكل ومشكلة النمذجة المقارنة. الهدف بسيط & # x02014 لتكون قادرة على إنتاج نماذج دقيقة بما فيه الكفاية إما مع أو بدون بنية قالب البداية للسماح برؤى بيولوجية قائمة على الهيكل دون الحاجة إلى تحديد بنية تجريبية مملة ومكلفة & # x02014 أو حتى أكثر بساطة ، لحل مشكلة طي البروتين .

لقد مددنا رشيد البداية استراتيجية التنبؤ الهيكلي لمشكلة توليد نماذج من البروتينات باستخدام بيانات تجريبية محدودة. من خلال دمج معلومات التحول الكيميائي والتأثير المفرط النووي (NOE) (Bowers وآخرون. 2000) ومعلومات اقتران ثنائية القطب مؤخرًا (Rohl & # x00026 Baker 2002) في إجراء إنشاء بنية Rosetta ، كان من الممكن إنشاء نماذج أكثر دقة بكثير من استخدام البداية التنبؤ بالهيكل وحده أو باستخدام نفس مجموعات البيانات المحدودة باستخدام منهجية توليد بنية الرنين المغناطيسي النووي التقليدية. من التطورات الحديثة المثيرة أن إجراء Rosetta يمكن أن يستفيد أيضًا من بيانات NMR غير المعينة وبالتالي التحايل على الخطوة الصعبة والمملة لتعيين أطياف NMR (Meiler وآخرون. 2003).

رشيد البداية طريقة التنبؤ بالبنية ، وطريقة تحديد بنية الرنين المغناطيسي النووي القائمة على Rosetta ، وطريقة جديدة للنمذجة المقارنة (Rohl & # x00026 Baker 2003) التي تستخدم Rosetta من جديد تم تنفيذ نهج النمذجة لنمذجة أجزاء الهيكل (الحلقات الطويلة بشكل أساسي) التي لا يمكن تصميمها بدقة بناءً على قالب هيكل متماثل في خادم عام يسمى Robetta والذي كان واحدًا من أفضل خوادم التنبؤ بالبنية المؤتمتة بالكامل في اختبارات CASP5 و CASP6 (Chivian وآخرون. 2005) ولديها تراكم مستمر من المستخدمين في جميع أنحاء العالم.

(د) التنبؤ بالبروتين & # x02013 تفاعلات البروتين

كما هو موضح أعلاه ، لقد عملنا لعدد من السنوات على تحسين بنية البروتين ، وهو أمر يمثل تحديًا بسبب العدد الكبير جدًا من درجات الحرية. لقد أصبحت مهتمًا بمشكلة إرساء البروتين & # x02013 البروتين لأنه ، مع التقريب بأن الشريكين لا يخضعان لتغييرات توافقية كبيرة أثناء الإرساء ، فإن المساحة المراد البحث عنها أصغر بكثير & # x02014 فقط درجات الجسم الصلبة الست للحرية بالإضافة إلى السلسلة الجانبية درجات الحرية ، وبالتالي بدا وكأنه نقطة انطلاق جيدة لمشكلة صقل الهيكل الأصعب مع كونه مهمًا في حد ذاته.

لقد طورنا طريقة جديدة للتنبؤ بمجمعات البروتين & # x02013 البروتين من إحداثيات مكونات المونومر غير المنضمة (رمادي وآخرون. 2003) الذي يستخدم بحث مونت كارلو منخفض الدقة وجسم صلب متبوعًا بالتحسين المتزامن لإزاحة العمود الفقري والتوافق الجانبي مع إجراء تصغير مونت كارلو والنموذج المادي المستخدم في عمل تنبؤ الهيكل عالي الدقة. يتناقض التحسين المتزامن لدرجات الحرية في السلسلة الجانبية والجسم الصلب مع معظم الأساليب الحالية الأخرى التي يظل نموذج البروتين و # x02013 البروتين الذي يمثل مشكلة مطابقة لشكل الجسم الصلب مع السلاسل الجانبية ثابتًا. لقد قمنا مؤخرًا بتحسين الطريقة (RosettaDock) بشكل أكبر (Wang وآخرون. 2005) من خلال تطوير خوارزمية تسمح بأخذ عينات فعالة من المطابقات الجانبية للخارج الدوارة أثناء الالتحام.

تم تسليط الضوء على قوة RosettaDock في تحدي البروتين CAPRI الأعمى و # x02013 البروتين الذي تم عقده في ديسمبر 2004. في CAPRI ، يتم إعطاء المتنبئين تركيبات لبروتينين معروفين بتكوين مركب ، ويتم تحديهم للتنبؤ ببنية البروتين. مركب. كانت تنبؤات RosettaDock للأهداف دون تغييرات كبيرة في تكوين العمود الفقري مذهلة للغاية ، كما هو موضح في الشكل 3. لم يقتصر الأمر على توقع توجهات الجسم الصارمة للشريكين بشكل مثالي تقريبًا ، ولكن تم تصميم جميع سلاسل الواجهة الجانبية بدقة شديدة. الأهم من ذلك ، أن هذه النماذج الصحيحة برزت بوضوح على أنها أقل في الطاقة من جميع النماذج الأخرى التي أنشأناها ، مما يشير إلى أن الوظيفة المحتملة ليست بعيدة جدًا. كانت هذه التنبؤات أفضل من الناحية النوعية من التنبؤات التي تم إجراؤها باستخدام الطرق القياسية القائمة على الشبكة والتي تحافظ على سلاسل البروتين الجانبية ثابتة أثناء الالتحام.

نتائج إرساء بروتين كابري & # x02013 بروتين. (أ) (1): طيف الطاقة للنماذج المتولدة في حسابات الإرساء العالمية التي تم إجراؤها قبل إطلاق الهياكل التجريبية. (ب): مقارنة اتجاه الجسم الصلب المتوقع (الأزرق) مع البنية البلورية للأشعة السينية (الأحمر والأصفر). (ج): لقطة مقربة للواجهة توضح أنه بالإضافة إلى اتجاه الجسم الصلب ، تم أيضًا التنبؤ بالمطابقة التفصيلية للسلسلة الجانبية بشكل صحيح. النماذج المتوقعة هي تلك التي تم تقديمها إلى منظمي CAPRI وهي أقل نماذج الطاقة الموجودة في عمليات البحث العالمية والمحلية الموضحة على (أ).

تشير هذه النتائج الواعدة جدًا إلى أن الطريقة قد تكون مفيدة قريبًا لتوليد نماذج من المجمعات المهمة بيولوجيًا من هياكل المكونات المعزولة ، وتقترح بشكل عام أن النمذجة عالية الدقة للهياكل والتفاعلات في متناول اليد. يتمثل الهدف الواضح لعمل التنبؤ بالهيكل الأحادي لدينا في الاقتراب من مستوى دقة هذه النماذج.


بداية التنبؤ بهندسة ربط الببتيد- معقد التوافق النسيجي الكبير (MHC) لأنماط متنوعة من معقد التوافق النسيجي الكبير من الفئة الأولى

نظرًا لأن تحديد التركيب البلوري لجميع مجمعات الببتيد- معقد التوافق النسيجي الكبير غير ممكن ، فإن التنبؤ الدقيق بالتشكيل يعد مشكلة حسابية حرجة. يمكن أن تكون هذه النماذج مفيدة لتحديد علم الطاقة الملزمة ، والتنبؤ بهياكل مجمعات ثلاثية معينة مع مستقبلات الخلايا التائية ، وتصميم جزيئات جديدة تتفاعل مع هذه المجمعات. تتمثل الصعوبات الرئيسية في (1) أخذ عينات مناسبة للعدد الكبير من درجات الحرية المطابقة للببتيد المرن ، (2) التنبؤ بالتغيرات الطفيفة في هندسة واجهة MHC عند الربط ، و (3) نماذج البناء للعديد من أنماط MHC بدون هياكل معروفة . في حين أن الدراسات السابقة قد تعاملت مع مشكلة أخذ العينات عن طريق تقسيم المتغيرات المطابقة إلى مجموعات مختلفة والتنبؤ بها بشكل منفصل ، فقد قمنا بتحسين بروتوكول الالتحام المتحيز لمونت كارلو في الإحداثيات الداخلية لتحسين وظيفة الطاقة المادية لجميع متغيرات الببتيد في وقت واحد. قمنا أيضًا بتقليد الملاءمة المستحثة عن طريق الالتحام في تمثيل شبكي أكثر تساهلاً لسلاسة معقد التوافق النسيجي الكبير متبوعًا بالصقل وإعادة الترتيب باستخدام نموذج معقد التوافق النسيجي الكبير بالكامل. تم اختبار طريقتنا من خلال مقارنة نتائج الالتحام المتقاطع لـ 14 ببتيدًا في HLA-A * 0201 و 9 ببتيدات في H-2ك ب بالإضافة إلى إرساء الببتيدات في نماذج التماثل لخمسة أنماط مختلفة من HLA مع مجموعة شاملة من الهياكل التجريبية. يوضح التنبؤ الدقيق المثير للدهشة (0.75 Å عمود فقري RMSD) للالتحام المتقاطع لعقار دياببتيد شديد المرونة ، يختلف عن الببتيد الأصلي المرتبط ، بالإضافة إلى تنبؤات الإرساء باستخدام نماذج التماثل لنمطين متماثلين بمتوسط ​​منخفض RMSDs أقل من 1.0 Å. فعالية الطريقة. أخيرًا ، تم دمج مصطلحات الطاقة المحسوبة باستخدام الهياكل المتوقعة مع التعلم الخاضع للإشراف على مجموعة بيانات كبيرة لتصنيف الببتيدات على أنها إما HLA-A * 0201 أو غير ملزمة. على النقيض من طرق التنبؤ القائمة على التسلسل ، كان هذا النموذج قادرًا أيضًا على التنبؤ بألفة ربط الببتيدات بنمط مختلف MHC (H-2).ك ب ) ، لا يُستخدم للتدريب ، مع دقة تنبؤ قابلة للمقارنة. البروتينات 2006. حقوق النشر © لعام 2006 محفوظة لشركة Wiley-Liss، Inc.

يمكن العثور على المواد التكميلية المشار إليها في هذه المقالة على http://www.interscience.wiley.com/jpages/0887-3585/suppmat/

اسم الملف وصف
jws-prot.20831.dat1.dat3 كيلوبايت مجلدات A0201.
jws-prot.20831.dat2.dat3 كيلوبايت A0201 غير المجلدات.
jws-prot.20831.dat3.dat250 ب المجلدات KB.
jws-prot.20831.dat4.dat250 ب كيلوبايت غير المجلدات.

يرجى ملاحظة ما يلي: الناشر غير مسؤول عن محتوى أو وظيفة أي معلومات داعمة مقدمة من المؤلفين. يجب توجيه أي استفسارات (بخلاف المحتوى المفقود) إلى المؤلف المقابل للمقالة.


ملخص

نصف هنا واجهة خادم ويب سهلة الاستخدام لبروتوكول Rosetta FlexPepDock للنمذجة عالية الدقة لتفاعلات البروتين الببتيد. تم استخدام FlexPepDock مؤخرًا من قبلنا لمعالجة العديد من مهام تصميم "العالم الحقيقي" بنجاح (34-37) ونتوقع أن زيادة قابليتها للاستخدام من خلال خادم الويب هذا سيفتح الباب لمجموعة واسعة من الأنظمة والتطبيقات الجديدة.

لقد قمنا مؤخرًا بتوسيع بروتوكول FlexPepDock وقدمنا ​​"FlexPepDock أب - initio "، بروتوكول قوي للتزامن من جديد طي الببتيدات وترسيخها في موقع ربط معروف لا يتطلب تشكيل العمود الفقري الببتيد الأولي. FlexPepDock البداية كان أداؤه جيدًا على أساس معيار تفاعلات الببتيد والبروتين (38). ومع ذلك ، يعد هذا البروتوكول مكلفًا من الناحية الحسابية وبالتالي فهو غير متاح بعد على خادم الويب. يمكن تنزيله كجزء من إصدار Rosetta التالي.


4 - نتائج

InterPep2 applies structural templates for docking peptide fragments, using a random forest regressor to score plausible interaction models. Because InterPep2 is using a residue-order-independent structural alignment for positioning the peptide, it is not limited to use peptide–protein interaction templates, but can use any protein–protein interaction surface as template to model peptide–protein interaction complexes.

InterPep2-Refined achieves state-of-the-art performance on a large set of 251 bound peptide–protein complexes with up to 25 residues long peptides, placing the peptide within 4.0 Å LRMSD of its native conformation in 50 structures considering top10 predictions, and with the highest precision across all recall levels, for example at 50% recall the precision is 61.5% compared to 47.8% precision for the second best method. This performance is maintained when testing on a new set (PDB16–19) of 252 complexes from structures deposited after the complexes used in the construction of the InterPep2 training and template sets, for which 67 peptides were placed in the correct conformation.

On a frequently used dataset of 27 unbound-to-bound complexes InterPep2-Refined performed second-best, successfully placing the peptide within 4.0 Å LRMSD in 15 of 27 peptide conformations, and modeling it with an fnat of at least 0.6 in 13 of the 27, without the use of templates with similar sequence to the target. More interesting however, is that a method combining the template-based InterPep2-Refined with the أب initio method PIPER-FlexPepDock vastly outperformed both methods it was derived from, successfully generating models with the peptide within 4.0 Å LRMSD of its native position for 22 of the 27 complexes, with an fnat of at least 0.6 in 19 of the 27.


The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. A Rosetta Conference (RosettaCon) describing updates to the Rosetta source code is held annually. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the annual conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). This is the introduction to the third RosettaCon 2014 Special Collection published by PLOS.

The Rosetta macromolecular modeling software is a versatile, rapidly developing set of tools that are now being routinely utilized to address state-of-the-art research challenges in academia and industrial research settings. The software is being co-developed by 44 laboratories from universities, government labs, and research centers in the United States, Europe, Asia, and Australia. The Rosetta software package is the result of a collaborative effort among these research institutions, building upon shared discoveries and free exchange of knowledge and software tools. Every institution with a participating laboratory is a member of an organization called RosettaCommons that facilitates code development and collaboration (http://www.rosettacommons.org). To enhance this collaborative development effort, RosettaCommons holds an annual conference in Leavenworth, WA, USA in the last week of July or the first week of August. Every two years, a Rosetta Conference (RosettaCon) special collection describing the results presented at the conference by participating RosettaCommons labs is published by the Public Library of Science (PLOS). As organizers of the 2014 Rosetta Conference, we are pleased to introduce the third RosettaCon 2014 Special Collection published by PLOS.

The applications of Rosetta software can be broadly divided into two themes–modeling or predicting structures of natural biological polymers [1,2], and the design of novel biomacromolecules [3,4] using, in some cases, an expanded alphabet that included non-natural sidechain and/or backbone functional groups [5,6]. These diverse applications, however, use the same underlying conceptual and software framework consisting of generating various conformations (sampling) of a molecule and scoring these conformations to identify optimal atomic-resolution arrangements (energy function). A crucial early insight was that both scoring and sampling techniques should ideally be independent of the problem under consideration and trained on experimental data [7]. Examples of these datasets include the distributions of protein backbone conformations or side chain rotamers seen in the Protein Databank [1,8], or the measured changes in free energies upon mutation in protein cores [9]. In this framework, the successes and failures of each structural modeling or design exercise provides valuable feedback for improving the underlying methods to iteratively recapitulate a greater proportion of experimental results. Therefore, reproducibility, verification and generalizability of new Rosetta computational algorithms is crucial.

A recent report extrapolates that fully 50% of biological research is not reproducible [10]. Accessibility of new techniques to an outside user can significantly impact reproducibility [11]. In principle, computational biology simulations should offer greater control over both accessibility and reproducibility compared to “wet” lab experiments, as the number of uncontrolled ingredients (reagents etc.) are lower. Yet in practice both reproducibility and accessibility can suffer. This is because academic labs often develop shortcuts and shorthand in day-to-day practice of a newly developed technique, and often omit to mention these little details in their publications, which, in turn, may contribute negatively to reproducibility. Additionally, the structural and design complexity of multi-purpose software such as Rosetta is high (currently at 2.7 million lines of code) and new software developments are usually made in academic laboratories by non-professional software developers who are focused on solving a specific علمي مشكلة. For example, the use of specific data structures that assume molecular connectivity corresponding to canonical L-amino acids can frustrate the extension of a structure prediction algorithm to non-canonical side chains or backbone groups.

One idea to achieve reproducibility and accessibility was explored in the previous Rosetta collections—Protocol Capture [12]. In a Protocol Capture, all individual steps in a newly developed protocol are listed as a step-by-step flowchart [13]. Input and expected output files, along with a reference to the code executable (or version number), are provided to the user. In this manner, the user can identify what was actually done in the simulation. This helps both scientific reproducibility (by reporting exactly what was done) as well as accessibility (by allowing non-specialists to reproduce the main findings of the work). However, the issues of laboratories using their shorthand and assumptions, as well as insufficient attention being paid to generalizability still remained. In this collection, we sought to address these issues by requiring an author from an external (but still RosettaCommons) laboratory to serve as a “tester”. This follows from the well-established practice in the software industry where testing and development are separate functions. For the Rosetta community, this approach provides the additional benefit that the external “tester” author, while being an expert in the general area, is sufficiently removed from the laboratory-specific jargon and project-specific scientific goals. Thus, the perspective of the tester author should increase the clarity of description as well as generalizability of the underlying code itself.

This year’s collection contains 12 papers published in PLOS One and PLOS Computational Biology. These papers characterize the diversity of modeling applications present in the Rosetta Macromolecular Code framework, including structure prediction, protein design, modeling of conformational states, and enzyme redesign. We have grouped the papers into four broad categories: structure prediction, membrane proteins, scientific benchmarks, and docking. Many of these categories are artificial, as some of the papers in the collection can fit into multiple categories. Nevertheless, they serve as a useful rubric for appreciating the depth and breadth of the Rosetta Macromolecular software package.

Protein Structure Prediction

The structural prediction of monomeric, soluble proteins is still an unsolved problem, notwithstanding notable recent advances. One important necessity in computational prediction protocols is reducing the high dimensional search space during simulations. An increasingly successful approach is the incorporation of structural restraints derived from phylogeny or low-resolution experiments𠄻oth approaches provide valuable but sparse and/or noisy information, and the challenge is to productively use these data. For example, Braun et al. demonstrate that evolutionary information on the protein fold can be discretized as residue-residue 𠇌ontact maps”, and that these can be combined with iterative sampling techniques for more accurate protein structure prediction [14]. In another example, Huber and colleagues show the integration of Rosetta with sparse EPR constraints to model conformational states in a model protein [15]. One technical issue that arises with the incorporation of multiple experimentally derived restraints is that individual sets are incompatible with each other, thus requiring manual intervention from the coder. To address this problem, Porter et al. developed a computational framework that simplifies combined sampling strategies in Rosetta [16]. They then demonstrated this powerful framework on a range of modeling problems, including domain insertion and البداية structure prediction with multiple sets of experimental restraints.

Membrane Proteins

The design and modeling of membrane proteins is an emerging research area. Gray and colleagues present an integrated framework for membrane protein modeling and design [17]. In this work they showed application of the modeling framework to predict free energy changes upon mutation, high-resolution structural refinement, protein-protein docking, and assembly of symmetric protein complexes.

Docking

A significant issue limiting the success of both protein-protein and protein-small molecule docking is the large size and ruggedness of the search space. To efficiently sample conformational space, several approximations are made in the Rosetta approach: a low resolution Monte Carlo search, typically with a coarse-grained representation of the molecules and an approximate energy function, is first performed, followed by high resolution Monte Carlo refinement with atomic resolution [18]. In spite of these approximations, sampling remains computationally inefficient. Furthermore, the energy functions used in the high-resolution step, while being more accurate than the low-resolution step, are still built for speed over accuracy, and often suffer from incorrect modeling of interactions between polar groups, and protein with the solvent. More specifically, in the Rosetta high-resolution energy function, the balance of hydrogen bonding, electrostatics and desolvation forces is a known contributor to energy function inaccuracy [8,19]. It should be noted that the limitations in scoring and sampling are related𠄾nhanced sampling allows identification of false positive conformations, where as more accurate scoring increases ease of identification of true positive solutions by more efficient identification of more optimal basins. Several papers tackle the sampling and scoring issues in docking:

تشانغ وآخرون. show the application of replica exchange and other advance sampling techniques to increase the efficiency of Monte Carlo search during docking. Using a benchmark set of 20 protein-protein complexes, they identified an advanced sampling strategy showed better performance with equivalent computational resources. A new sampling approach was used by DeLuca et al. [20] to improve the accuracy and decrease the computational cost of the RosettaLigand docking protocol used in the prediction of protein-small molecule interactions [21]. For protein-small docking, the Karanicolas group report several significant improvements to a previously developed “ray casting” docking approach [22] used for the prediction of small molecules that disrupt protein-protein interactions [23]. Bazzoli et al. show that the use of two recent enhancements to the Rosetta energy function𠄾xplicitly including a Coulombic electrostatic term, and using a modified form of the implicit solvation potential�n markedly improve the ability to identify small-molecule inhibitors of protein-protein interactions [24].

Protein Multispecificity Design

The design of multi-specificity of proteins is important in applications ranging from structural vaccine design, bispecific antibody therapy, and combinatorial biocatalysis. Many computational design strategies rely on genetic algorithms, which are slow and limit search space. To address this problem, the Meiler group developed a new algorithm that can find multistate minima without reliance on techniques that limit search space like a fixed backbone approximation [25].

Scientific Benchmarks

Many of the above protocols were developed by evaluating performance against a benchmark set. Development of accessible, standard benchmarks for different end uses has the potential to increase the speed of method development, and aid reproducibility. For that reason, the Kortemme lab has developed a centralized web resource for standardized benchmark datasets (https://kortemmelab.ucsf.edu/benchmarks) [26]. This web resource includes analysis scripts, Rosetta commandlines, and tutorials for the given benchmark. There are three main sets of benchmarks in this resource: tests estimating the energetic effects upon mutation, tests for structure prediction, and ones for protein design. As a further example of the utility of benchmark sets, Ollikainen et al. developed a benchmark in order to test different protein design protocols on the re-design of enzyme substrate specificity [27]. They then showed that a protocol coupling backbone with side-chain flexibility improves prediction of sequence recovery over a competing fixed backbone approach.

Taken together, the articles in this collection highlight the utility of the Rosetta approach in tackling wide-ranging problems in biomolecular modeling and design using a common platform that allows the accessible and reproducible re-utilization of software. The common framework also provides an inherent feedback loop where new algorithms for sampling and scoring can be widely utilized and benchmarked for diverse scientific problems, in the process highlighting limitations of the approaches and areas where further developments are needed. We hope that through this collection readers will get a taste of the excitement and the unity in diversity that we enjoyed at RosettaCon 2014!


Protein Loop Modeling

Loop modeling is a complex and central element of protein structure prediction and design. There are two typical biological problems:

  • modeling loops into regions of low electron density in crystal structures
  • modeling loops into regions of low homology or with no secondary structure in homology models There exist a variety of tools for approaching these tasks. For an overview of loop modeling in Rosetta, please see this.

Modeling Loops in Regions of Low Electron Density

For explicit refinement of crystallography data, see here.

loops from density is a script to take badly fit electron data and a cutoff suggesting how much of the pose you're willing to rebuild and to generate input "loops" files for loop modeling.

For modeling of missing loops on existent protein structures, you can use any of the methods in the section below.

Modeling Loops in Regions of Low Homology or with No Secondary Structure

What if I am building a homology model and there are regions with low homology or no predicted secondary structure? These are the typical problems solved by loop modeling algorithms. Most loop modeling algorithms in Rosetta are contained within a single executable and run by setting different flags. The fastest, but least accurate method is cyclic coordinate descent (CCD). CCD closes a loop by iteratively solving for phi/psi angles which position the mobile terminus closer to the target anchor after fragment insertion. CCD is generally not recommended but can be used in specific cases (e.g. when time is a limiting factor). The currently (June 10th, 2015) accepted method of loop modeling is next-generation KIC (NGK). KIC sampling can be enhanced/concerted with fragments (KIC with fragments). There also exists an alternative, Monte Carlo stepwise, loop modeling method which can be applied to proteins and RNA. Unfortunately, stepwise loop modeling (for proteins and RNA) tends to be slow.

What if I am modeling a protein with a disordered region?

You probably should not be doing this using Rosetta, if at all. Disordered proteins are dynamic in the context of a cell. It is unlikely that any static, في السيليكو, model of a disordered protein or protein region will be very accurate. Rosetta's scorefunctions are parameterized on crystallized proteins, not disordered proteins. However, if you have a specific question, such as "can my disordered tail of 20 residues plausibly interact with this other region of my protein?" Then you may begin to approach this question with FloppyTail.


Protein Structure Prediction: Conventional and Deep Learning Perspectives

Protein structure prediction is a way to bridge the sequence-structure gap, one of the main challenges in computational biology and chemistry. Predicting any protein's accurate structure is of paramount importance for the scientific community, as these structures govern their function. Moreover, this is one of the complicated optimization problems that computational biologists have ever faced. Experimental protein structure determination methods include X-ray crystallography, Nuclear Magnetic Resonance Spectroscopy and Electron Microscopy. All of these are tedious and time-consuming procedures that require expertise. To make the process less cumbersome, scientists use predictive tools as part of computational methods, using data consolidated in the protein repositories. In recent years, machine learning approaches have raised the interest of the structure prediction community. Most of the machine learning approaches for protein structure prediction are centred on co-evolution based methods. The accuracy of these approaches depends on the number of homologous protein sequences available in the databases. The prediction problem becomes challenging for many proteins, especially those without enough sequence homologs. Deep learning methods allow for the extraction of intricate features from protein sequence data without making any intuitions. Accurately predicted protein structures are employed for drug discovery, antibody designs, understanding protein–protein interactions, and interactions with other molecules. This article provides a review of conventional and deep learning approaches in protein structure prediction. We conclude this review by outlining a few publicly available datasets and deep learning architectures currently employed for protein structure prediction tasks.

هذه معاينة لمحتوى الاشتراك ، والوصول عبر مؤسستك.


استنتاج

We report recent advancements made to the online COFACTOR server for hybrid protein function annotations. In general, the biological function of a protein can be intricate and often contains multiple levels of categorizations. The COFACTOR server focuses on the three most widely-used and computationally amenable categories of function: GO, EC number and ligand-binding sites. Compared with the previous version of COFACTOR, which generated function annotations purely based on structural homology transfer, the updated server introduced several new pipelines built on sequence profile and PPI network information to enhance the accuracy and coverage of the structure-based function predictions. Accordingly, new sources of function templates, including sequence homologs and PPI partners, have been incorporated into the default function library (BioLiP) of the COFACTOR server. Our large-scale benchmark tests have shown that the new composite pipelines can generate function predictions with accuracy outperforming the former version of COFACTOR, as well as many state-of-the-art methods in the literature.

To facilitate the use and interpretation of the prediction results, a confidence scoring system has been introduced (as calibrated in Figure 2), which can help users to quantitatively estimate the accuracy of the predictions. Meanwhile, new DAG combined with animation software are introduced to facilitate the viewing, analysis and manipulation of the prediction models. These developments and updates significantly enhance the accuracy and usability of an already widely applied structure function service system and will make it continue to be a powerful tool, powered by new state of the art algorithms, both for rapid annotation of uncharacterized proteins and for providing a starting point to understand and further characterize targets that may be identified in high-throughput experimental studies.


شاهد الفيديو: Lecture 11, concept 24: Fragment-based ab initio prediction with ROSETTA (سبتمبر 2022).