Pour les appels de mutation, les dénombrements d`allèle et leurs qualités de base associées ont été recueillis pour chaque lignée cellulaire individuelle. Seuls les allèles remplissant les critères suivants ont été utilisés dans les étapes suivantes: qualité de base (BQ) > = 10; qualité de base du voisinage (NBQ) > = 10; mappage de la qualité de lecture associée (MQ) > = 20; et sa lecture associée n`est pas un doublon. Toute qualité de base dépassant la qualité de mappage de la lecture est réduite à la qualité de mappage de la lecture. Les positions comportant moins de 2 lectures soutenant tout allèle sans référence étaient considérées comme une référence homozygote et exclues des analyses ultérieures. La probabilités de tous les génotypes possibles (AA, AT, AC, etc.) étant donné les données alléliques recueillies pour la lignée cellulaire ont été calculées à l`aide du modèle d`erreur MAQ initialement défini dans (11) et maintenant disponible dans le code source samtools. Les génotypes probabilités ont ensuite été utilisés dans un modèle bayésien incorporant une probabilité antérieure sur la référence, et le taux hétérozygote du génome humain. Le génotype ayant la plus forte probabilité étant donné que les données ont été choisies comme étant les plus probables. Aucune autre analyse n`a été effectuée à cette position pour un génotype de référence homozygote. Dans le cas contraire, les métriques suivantes ont été calculées à la position de la variante et utilisées pour le filtrage post-traitement de toutes les variantes putatives: DP: profondeur de lecture totale, AD: profondeur ou couverture pour tous les allèles, y compris les allèles non génotypes; BQ: qualité de base moyenne de chaque allèle; MQ: qualité cartographique moyenne des lectures supportant chaque allèle; MQ0: nombre de la qualité de mappage zéro lit la position de chevauchement; MQL: le nombre de «faible» qualité de mappage lit la position de chevauchement; NAHP: le nombre moyen d`homopolymères adjacents s`étend de chaque côté de chaque allèle du génotype; MAHP: le plus long homopolymère adjacent s`exécute de chaque côté de chaque allèle dans le génotype; AMM: nombre moyen de fausses correspondances dans les lectures soutenant chaque allèle; MMQS: somme moyenne des qualités de base pour toutes les bases mal assorties; DETP: distance effective moyenne à 3 `de fin de lecture pour chaque allèle, normalisée par la longueur lue; LD/MD/RD: nombre de lectures soutenant chaque allèle où l`allèle est situé dans le tiers le plus à gauche de la lecture, le tiers moyen de lecture, ou le tiers le plus à droite de la lecture, respectivement; LDS/MDS/RDS: version au brin-Aware de ci-dessus; SB: nombre de lectures soutenant chaque allèle aligné sur le brin avant; et PN/NN: nucléotides précédents et suivants en référence. Fichier additionnel 1: (2.5 M, docx) méthodes supplémentaires, résultats supplémentaires, figures S1 à S10, et tableaux S4, S6, S8, S9, S10, S12 et 13.
Méthodes supplémentaires: description détaillée des données de réponse des composés thérapeutiques, données moléculaires pour les lignées cellulaires du cancer du sein, données moléculaires pour les échantillons de tumeurs du cancer du sein externes utilisés pour la validation, méthodes de classification, intégration des données méthodes statistiques et l`analyse de la surreprésentation des sentiers. Résultats supplémentaires: évaluation du signal de la lignée cellulaire dans les échantillons de tumeurs, relations entre les données, Comparaison de prédiction des jeux de donnees, validation par rapport à d`autres jeux de lignes cellulaires et boîte à outils de prédiction de la réponse du patient pour le projet R pour les statistiques Informatique. Tableau S4: vue d`ensemble des gènes avec une bonne corrélation (valeur de P FDR < 0,05) entre SNP6 et l`expression génique; 22 à 39% des gènes dans les régions d`aberration du numéro de copie montrent une concordance significative entre leur profil génomique et transcriptomique après une correction multiple des tests. Tableau S6: type de données classement de l`importance des jeux de données moléculaires par comparaison des performances de prédiction des classificateurs LS-SVM et RF construits sur des ensembles de données individuels et leur combinaison, et par comparaison de l`apparence moyenne des types de donnée dans le Top 100 de des caractéristiques classées, avec et sans inclusion des données RPPA. Des exemples sont également fournis de composés pour lesquels (la plupart) des jeux de données donnent des résultats similaires ou pour lesquels un jeu de données fonctionne mieux (affiché en gras).