Forum

Afficher les séquences des protéines  

  RSS

(@daniel)
Active Member
Joined: 7 mois ago
Posts: 12
14/01/2019 6:36  

Bonjour,

Je n'arrive pas à voir ma séquence lorsque je sélectionne une protéine bien que ma banque .fasta ajoutés au logiciel et que le "run-RetrieveService.bat" ou le "run-RetrieveOnDemand.bat" soit lancé.

Voici ma Sequence Repository pour une banque NCBI:

 

Pouvez-vous m'aider s'il vous plait.

Merci

local-fasta-directories =["C:\\ProlineServer-1.6\\data\\fasta"]

parsing-rules = [{

   name="NCBIprot_mammals",

   fasta-name=["NCBIprot_mammals"],

   fasta-version="NCBI([^_]*)_.*.fasta",

   protein-accession ="\\w{0}\\>([^\\|]+)\\ "   

},

{

   name="label2",


Quote
(@alex)
Member Admin
Joined: 1 an ago
Posts: 6
21/01/2019 12:17  

Bonjour,

Si le script run-RetrieveOnDemand.bat est en cours d'exécution, il faut ensuite faire un clic droit sur le dataset souhaité dans Proline Studio, et cliquer sur "Retrieve protein sequences".

Dans le cas du script run-RetrieveService.bat, cette opération est faite automatiquement à intervalle de temps régulier (il me semble que par défaut c'est toutes les deux heures).

 

Dans les deux cas, on va alors chercher le fichier fasta correspondant à l'analyse dans le répertoire indiqué (dans votre cas C:\ProlineServer-1.6\data\fasta), et extraire les séquences des protéines validées.

Enfin, il faut vous assurer que la règle de parsing corresponde à celle utilisée par le moteur de recherche. Par défaut on sélectionne le texte contenu entre le chevron de départ et le premier espace.


ReplyQuote
(@daniel)
Active Member
Joined: 7 mois ago
Posts: 12
23/01/2019 3:01  

Bonjour,

Je vous remercie pour votre réponse, mais je n'arrive toujours pas à les afficher. Pouvez-vous m'aider sur le masque qu'il faut saisir.

 

Voici un extrait de ma première banque NCBI (NCBIprot_bos_taurus_20170705.fasta):

>AAL58190.1 X-linked zinc finger protein, partial [Bos taurus]
DEDLNVAE
>BAC54785.1 NADH-ubiquinone oxidoreductase chain 6 (mitochondrion) [Bos taurus]
MMLYIVFILSVIFVMGFVGFSSKPSPIYGGLGLIVSGGVGCGIVLNFGGSFLGLMVFLIYLGGMMVVFGYTTAMATEQYP
EIWLSNKAVLGAFVTGLLMELFMVYYVLKDKEVEVVFEFNGLGDWVIYDTGDSGFFSEEAMGIAALYSYGTWLVIVTGWS
LLIGVVVIMEITRGN
>BAA24780.1 MHC class I heavy chain, partial [Bos taurus]
RYFYTAVSRPGLGEPRFISVGYVDDTQIARFDSDAWNPRMEPRAPWMEQKGPEYWEEMTRDAKEDQQRSQLCLNTLRGYY
NQSEAGSHTFQWMYGCDVGPDGRFLRGYRQDAYDGRDYIALNEDLRSWTAADTAAQITKRKWEAEGAAEGERNYLEGRCV
EWLRRYL
>AAL16079.1 orphan nuclear receptor DAX-1, partial [Bos taurus]
GTVLFNPDLPGLQCVKYIQGLQWGTQQILSEHVRMTHGVYRARFAELNSALFLLRFISANTLAELFLRPI
>AAB25015.1 multicatalytic proteinase complex 21kda fragment, MPC 21kda fragment [cattle, pituitary, Peptide Partial, 16 aa]
XXXLAFKFRHGVIVAA
>BAA24730.1 MHC class I heavy chain, partial [Bos taurus]
RYFSTAVSRPGLEEPRFIIVGYVDDTQFVRFDSDSPNPRAEPRAPWMEQEGPEYWDEQTRIVKDTAQTFRANLNTALGYY
NQSEAGSHNIQAMYGCDVGSDGSFLRGYSQDAYDGRDYIALNEDLRSWTAADTAAQITKRKWEAEGYAESLRNYLEGTCV
EWLRRYL

Et voici le masque que j'ai rentré dans le fichier de configuration : 

parsing-rules = [{

   name="NCBIprot_mammals",

   fasta-name=["NCBIprot_mammals"],

   fasta-version="NCBI([^_]*)_.*.fasta",

   protein-accession ="\\w{0}\\>([^\\|]+)\\ "   

}

Voici le résultat du test pour une banque mammals:

23 janv. 2019 13:58:17.940 [main] DEBUG fr.proline.module.seq.Constants - Using 4 thread(s)
23 janv. 2019 13:58:17.955 [pool-1-thread-1] DEBUG f.p.m.seq.service.FastaPathsScanner - Scanning [C:\ProlineServer-1.6\data\fasta]
23 janv. 2019 13:58:17.955 [pool-1-thread-1] INFO f.p.m.seq.service.FastaPathsScanner - [C:\ProlineServer-1.6\data\fasta] scan terminated
23 janv. 2019 13:58:17.955 [main] DEBUG f.p.m.seq.service.FastaPathsScanner - Number of traversed dirs: 1
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.FastaPathsScanner - Found FASTA file names: 1
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - ---- Scanning Fasta local path ----
23 janv. 2019 13:58:17.955 [main] DEBUG f.p.m.seq.config.ParsingRuleEntry - [NCBIprot_mammals.fasta] matches Fasta Name Regex "NCBIprot_mammals"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Using rule "\>([^\|]+)\ " for "NCBIprot_mammals.fasta"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Release (using rule "NCBI([^_]*)_.*.fasta") = "prot"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Accession "NP_005711.1 actin-related protein 2/3 complex subunit 1B [Homo sapiens]XP_006715888.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_006715889.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_008966940.1 actin-related protein 2/3 complex subunit 1B [Pan paniscus]XP_024302396.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_024302397.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]O15143.3 RecName: Full=Actin-related protein 2/3 complex subunit 1B; AltName: Full=Arp2/3 complex 41 kDa subunit; AltName: Full=p41-ARCAAB64189.1 p41-Arc [Homo sapiens]AAH02562.1 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]AAH07555.1 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]AAH02988.2 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]EAL23882.1 actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]EAW76677.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a [Homo sapiens]EAW76678.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a [Homo sapiens]EAW76679.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a ...

Merci pour votre aide.

This post was modified 7 mois ago by Daniel

ReplyQuote
(@alex)
Member Admin
Joined: 1 an ago
Posts: 6
23/01/2019 3:59  

Bonjour,

Le principe du module "Retrieve Protein Sequences" est d'aller chercher les protéines identifiées par votre moteur de recherche dans le fichier fasta correspondant. Par conséquent il faut s'assurer que la règle utilisée par le moteur de recherche corresponde à celle utilisée par Proline.

Si vous affichez les Protein Sets dans l'Identification Summary, vous devriez avoir une première colonne "Protein Set" contenant le numéro d'accession que le moteur de recherche à récupéré dans la banque. Pourriez-vous recopier quelques-un de ces numéros d'accession ? En fonction du format je pourrais vous indiquer comment modifier votre fichier de configuration.


ReplyQuote
(@daniel)
Active Member
Joined: 7 mois ago
Posts: 12
23/01/2019 4:16  

Je vous envoie ci-joint la liste de quelques numéros d'accession que nous obtenons dans l'Identification Summary.

Merci par avance pour votre aide. 


ReplyQuote
(@alex)
Member Admin
Joined: 1 an ago
Posts: 6
23/01/2019 5:35  

Normalement la règle de parsing par défaut devrait convenir. Vérifiez bien que la ligne suivante existe dans votre fichier de configuration:

default-protein-accession =">(\\S+)"

Et vérifiez également que vous n'avez pas de règles annexes qui pourraient prendre le pas (les règles ajoutées dans parsing-rules).

D'après le log, il semble que la règle "\>([^\|]+)\ " soit appliquée, ce qui signifie qu'il va extraire tous les caractères entre le chevron de début et la première barre verticale ; comme vous n'avez pas de barre verticale dans votre fasta, c'est toute la ligne qui est prise en compte. Par conséquent, Proline va trouver la protéine "AAL58190.1 X-linked zinc finger protein, partial [Bos taurus]" et il ne pourra pas la faire correspondre à "AAL58190.1"...

 


ReplyQuote
(@vero)
Member Admin
Joined: 1 an ago
Posts: 29
24/01/2019 8:47  

Bonjour,

Alexandre a vu juste, dans votre premier post vous avez mis un extrait du fichier de config :

local-fasta-directories =["C:\\ProlineServer-1.6\\data\\fasta"]

parsing-rules = [{

   name="NCBIprot_mammals",

   fasta-name=["NCBIprot_mammals"],

   fasta-version="NCBI([^_]*)_.*.fasta",

   protein-accession ="\\w{0}\\>([^\\|]+)\\ "   

},

{

   name="label2",

Il faut donc soit supprimer cette entrée et laisser la règle par défaut qui doit exister plus dans le fichier (default-protein-accession =">(\\S+)") soit modifier votre entrée pour mettre protein-accession =">(\\S+)"

Bonne Journée

This post was modified 7 mois ago by Véronique Dupierris

ReplyQuote
(@alex)
Member Admin
Joined: 1 an ago
Posts: 6
24/01/2019 3:07  

On a regardé le problème par téléphone, il y avait un souci de connexion à la base de donnée dans le fichier de configuration, ainsi que le nom du fichier fasta qui ne correspondait pas à celui utilisé par Mascot.

Ayant corrigé cela et après avoir redémarré Proline Server, les séquences des protéines ont pu être récupérées 🙂


ReplyQuote
(@daniel)
Active Member
Joined: 7 mois ago
Posts: 12
25/01/2019 8:57  

Je vous remercie pour votre intervention.

👍


ReplyQuote
Share:
  
Working

Please Login or Register