Forum

Notifications

Retirer tout

Afficher les séquences des protéines

Software installation

Dernier post par Daniel Il y a 6 ans

9 Posts

3 Utilisateurs

0 Reactions

7,934 Vu

RSS

Daniel

(@daniel)

New Member

Inscription: Il y a 7 ans

Posts: 0

Début du sujet 14/01/2019 6:36 pm

Bonjour,

Je n'arrive pas à voir ma séquence lorsque je sélectionne une protéine bien que ma banque .fasta ajoutés au logiciel et que le "run-RetrieveService.bat" ou le "run-RetrieveOnDemand.bat" soit lancé.

Voici ma Sequence Repository pour une banque NCBI:

…

Pouvez-vous m'aider s'il vous plait.

Merci

local-fasta-directories =["C:\\ProlineServer-1.6\\data\\fasta"]

…

parsing-rules = [{

name="NCBIprot_mammals",

fasta-name=["NCBIprot_mammals"],

fasta-version="NCBI([^_]*)_.*.fasta",

protein-accession ="\\w{0}\\>([^\\|]+)\\ "

{

name="label2",

…

Citation

Alexandre Burel

(@alex)

Membre Admin

Inscription: Il y a 7 ans

Posts: 0

21/01/2019 12:17 pm

Bonjour,

Si le script run-RetrieveOnDemand.bat est en cours d'exécution, il faut ensuite faire un clic droit sur le dataset souhaité dans Proline Studio, et cliquer sur "Retrieve protein sequences".

Dans le cas du script run-RetrieveService.bat, cette opération est faite automatiquement à intervalle de temps régulier (il me semble que par défaut c'est toutes les deux heures).

Dans les deux cas, on va alors chercher le fichier fasta correspondant à l'analyse dans le répertoire indiqué (dans votre cas C:\ProlineServer-1.6\data\fasta), et extraire les séquences des protéines validées.

Enfin, il faut vous assurer que la règle de parsing corresponde à celle utilisée par le moteur de recherche. Par défaut on sélectionne le texte contenu entre le chevron de départ et le premier espace.

RépondreCitation

Daniel

(@daniel)

New Member

Inscription: Il y a 7 ans

Posts: 0

Début du sujet 23/01/2019 3:01 pm

Bonjour,

Je vous remercie pour votre réponse, mais je n'arrive toujours pas à les afficher. Pouvez-vous m'aider sur le masque qu'il faut saisir.

Voici un extrait de ma première banque NCBI (NCBIprot_bos_taurus_20170705.fasta):

>AAL58190.1 X-linked zinc finger protein, partial [Bos taurus]
DEDLNVAE
>BAC54785.1 NADH-ubiquinone oxidoreductase chain 6 (mitochondrion) [Bos taurus]
MMLYIVFILSVIFVMGFVGFSSKPSPIYGGLGLIVSGGVGCGIVLNFGGSFLGLMVFLIYLGGMMVVFGYTTAMATEQYP
EIWLSNKAVLGAFVTGLLMELFMVYYVLKDKEVEVVFEFNGLGDWVIYDTGDSGFFSEEAMGIAALYSYGTWLVIVTGWS
LLIGVVVIMEITRGN
>BAA24780.1 MHC class I heavy chain, partial [Bos taurus]
RYFYTAVSRPGLGEPRFISVGYVDDTQIARFDSDAWNPRMEPRAPWMEQKGPEYWEEMTRDAKEDQQRSQLCLNTLRGYY
NQSEAGSHTFQWMYGCDVGPDGRFLRGYRQDAYDGRDYIALNEDLRSWTAADTAAQITKRKWEAEGAAEGERNYLEGRCV
EWLRRYL
>AAL16079.1 orphan nuclear receptor DAX-1, partial [Bos taurus]
GTVLFNPDLPGLQCVKYIQGLQWGTQQILSEHVRMTHGVYRARFAELNSALFLLRFISANTLAELFLRPI
>AAB25015.1 multicatalytic proteinase complex 21kda fragment, MPC 21kda fragment [cattle, pituitary, Peptide Partial, 16 aa]
XXXLAFKFRHGVIVAA
>BAA24730.1 MHC class I heavy chain, partial [Bos taurus]
RYFSTAVSRPGLEEPRFIIVGYVDDTQFVRFDSDSPNPRAEPRAPWMEQEGPEYWDEQTRIVKDTAQTFRANLNTALGYY
NQSEAGSHNIQAMYGCDVGSDGSFLRGYSQDAYDGRDYIALNEDLRSWTAADTAAQITKRKWEAEGYAESLRNYLEGTCV
EWLRRYL

Et voici le masque que j'ai rentré dans le fichier de configuration :

parsing-rules = [{

name="NCBIprot_mammals",

fasta-name=["NCBIprot_mammals"],

fasta-version="NCBI([^_]*)_.*.fasta",

protein-accession ="\\w{0}\\>([^\\|]+)\\ "

}

Voici le résultat du test pour une banque mammals:

23 janv. 2019 13:58:17.940 [main] DEBUG fr.proline.module.seq.Constants - Using 4 thread(s)
23 janv. 2019 13:58:17.955 [pool-1-thread-1] DEBUG f.p.m.seq.service.FastaPathsScanner - Scanning [C:\ProlineServer-1.6\data\fasta]
23 janv. 2019 13:58:17.955 [pool-1-thread-1] INFO f.p.m.seq.service.FastaPathsScanner - [C:\ProlineServer-1.6\data\fasta] scan terminated
23 janv. 2019 13:58:17.955 [main] DEBUG f.p.m.seq.service.FastaPathsScanner - Number of traversed dirs: 1
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.FastaPathsScanner - Found FASTA file names: 1
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - ---- Scanning Fasta local path ----
23 janv. 2019 13:58:17.955 [main] DEBUG f.p.m.seq.config.ParsingRuleEntry - [NCBIprot_mammals.fasta] matches Fasta Name Regex "NCBIprot_mammals"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Using rule "\>([^\|]+)\ " for "NCBIprot_mammals.fasta"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Release (using rule "NCBI([^_]*)_.*.fasta") = "prot"
23 janv. 2019 13:58:17.955 [main] INFO f.p.m.seq.service.ListMatchingRules - Accession "NP_005711.1 actin-related protein 2/3 complex subunit 1B [Homo sapiens]XP_006715888.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_006715889.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_008966940.1 actin-related protein 2/3 complex subunit 1B [Pan paniscus]XP_024302396.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]XP_024302397.1 actin-related protein 2/3 complex subunit 1B isoform X1 [Homo sapiens]O15143.3 RecName: Full=Actin-related protein 2/3 complex subunit 1B; AltName: Full=Arp2/3 complex 41 kDa subunit; AltName: Full=p41-ARCAAB64189.1 p41-Arc [Homo sapiens]AAH02562.1 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]AAH07555.1 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]AAH02988.2 Actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]EAL23882.1 actin related protein 2/3 complex, subunit 1B, 41kDa [Homo sapiens]EAW76677.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a [Homo sapiens]EAW76678.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a [Homo sapiens]EAW76679.1 actin related protein 2/3 complex, subunit 1B, 41kDa, isoform CRA_a ...

Merci pour votre aide.

Ce message a été modifié Il y a 6 ans parDaniel

RépondreCitation

Alexandre Burel

(@alex)

Membre Admin

Inscription: Il y a 7 ans

Posts: 0

23/01/2019 3:59 pm

Bonjour,

Le principe du module "Retrieve Protein Sequences" est d'aller chercher les protéines identifiées par votre moteur de recherche dans le fichier fasta correspondant. Par conséquent il faut s'assurer que la règle utilisée par le moteur de recherche corresponde à celle utilisée par Proline.

Si vous affichez les Protein Sets dans l'Identification Summary, vous devriez avoir une première colonne "Protein Set" contenant le numéro d'accession que le moteur de recherche à récupéré dans la banque. Pourriez-vous recopier quelques-un de ces numéros d'accession ? En fonction du format je pourrais vous indiquer comment modifier votre fichier de configuration.

RépondreCitation

Daniel

(@daniel)

New Member

Inscription: Il y a 7 ans

Posts: 0

Début du sujet 23/01/2019 4:16 pm

Je vous envoie ci-joint la liste de quelques numéros d'accession que nous obtenons dans l'Identification Summary.

Merci par avance pour votre aide.

accession-number.PNG

RépondreCitation

Alexandre Burel

(@alex)

Membre Admin

Inscription: Il y a 7 ans

Posts: 0

23/01/2019 5:35 pm

Normalement la règle de parsing par défaut devrait convenir. Vérifiez bien que la ligne suivante existe dans votre fichier de configuration:

default-protein-accession =">(\\S+)"

Et vérifiez également que vous n'avez pas de règles annexes qui pourraient prendre le pas (les règles ajoutées dans parsing-rules).

D'après le log, il semble que la règle "\>([^\|]+)\ " soit appliquée, ce qui signifie qu'il va extraire tous les caractères entre le chevron de début et la première barre verticale ; comme vous n'avez pas de barre verticale dans votre fasta, c'est toute la ligne qui est prise en compte. Par conséquent, Proline va trouver la protéine "AAL58190.1 X-linked zinc finger protein, partial [Bos taurus]" et il ne pourra pas la faire correspondre à "AAL58190.1"...

RépondreCitation

Véronique Dupierris

(@vero)

Membre Admin

Inscription: Il y a 7 ans

Posts: 39

24/01/2019 8:47 am

Bonjour,

Alexandre a vu juste, dans votre premier post vous avez mis un extrait du fichier de config :

local-fasta-directories =["C:\\ProlineServer-1.6\\data\\fasta"]

…

parsing-rules = [{

   name="NCBIprot_mammals",

   fasta-name=["NCBIprot_mammals"],

   fasta-version="NCBI([^_]*)_.*.fasta",

   protein-accession ="\\w{0}\\>([^\\|]+)\\ "

},

{

   name="label2",

Il faut donc soit supprimer cette entrée et laisser la règle par défaut qui doit exister plus dans le fichier (default-protein-accession =">(\\S+)") soit modifier votre entrée pour mettre protein-accession =">(\\S+)"

Bonne Journée

RépondreCitation

Alexandre Burel

(@alex)

Membre Admin

Inscription: Il y a 7 ans

Posts: 0

24/01/2019 3:07 pm

On a regardé le problème par téléphone, il y avait un souci de connexion à la base de donnée dans le fichier de configuration, ainsi que le nom du fichier fasta qui ne correspondait pas à celui utilisé par Mascot.

Ayant corrigé cela et après avoir redémarré Proline Server, les séquences des protéines ont pu être récupérées 🙂

RépondreCitation

Daniel

(@daniel)

New Member

Inscription: Il y a 7 ans

Posts: 0

Début du sujet 25/01/2019 8:57 pm

Je vous remercie pour votre intervention.

👍

RépondreCitation

7 Forums
40 Sujets
91 Posts
1 En ligne
33 Membres

Icônes du forum: Le forum ne contient aucun message non lus Le forum contient des messages non lus

Icônes de sujet: Pas répondu Repondu Actif Important Épinglé Non approuvé Résolu Privé Fermé