Scientific Reports volume 12, numero articolo: 18487 (2022) Citare questo articolo
784 accessi
3 Altmetrico
Dettagli sulle metriche
L’utilizzo del sequenziamento dell’esoma per la scoperta di biomarcatori e la medicina di precisione richiede il collegamento della variazione a livello di nucleotidi con i cambiamenti funzionali nelle proteine codificate. Tuttavia, per annotare funzionalmente le migliaia di mutazioni missenso associate al cancro, o varianti di significato incerto (VUS), purificare le proteine varianti per l'analisi biochimica e funzionale è proibitivo in termini di costi e inefficiente. Descriviamo l'annotazione funzionale parallela (PFA) di un gran numero di VUS utilizzando piccole colture ed estratti grezzi in piastre da 96 pozzetti. Utilizzando membri di una famiglia di istone metiltransferasi, dimostriamo l'annotazione strutturale e funzionale ad alto rendimento delle mutazioni associate al cancro. Combinando l'annotazione funzionale dei paraloghi, abbiamo scoperto due parametri filogenetici e di clustering che migliorano l'accuratezza delle previsioni funzionali basate su sequenze fino a oltre il 90%. I nostri risultati dimostrano il valore della PFA per definire le funzioni oncogeniche/soppressori del tumore delle istone metiltransferasi, nonché per migliorare l'accuratezza degli algoritmi basati su sequenze nel prevedere gli effetti delle mutazioni associate al cancro.
L'annotazione funzionale delle mutazioni associate al cancro è impegnativa1,2. La maggior parte delle mutazioni missenso si verificano in posizioni senza funzione nota, impedendo l'identificazione delle mutazioni del conducente rispetto a quelle neutrali (passeggero). Gli attuali metodi di annotazione funzionale utilizzano la conservazione della sequenza di nucleotidi e amminoacidi (aa) per prevedere la patogenicità mutazionale3,4,5. La validazione si basa sulla divergenza dei mutanti nelle catene laterali aa rispetto al tipo selvaggio e sulla stima statistica della probabilità di selezione positiva rispetto al tasso di mutazione di fondo6. Tuttavia, la modifica di un aa conservato non sempre cambia la funzione. Gli algoritmi che incorporano informazioni strutturali e termodinamiche nelle previsioni funzionali7,8 sono limitati dalla scarsità di informazioni strutturali per gli stati conformazionali e ligati delle proteine. Predire l'impatto della sostituzione aa sulla funzione è difficile per le proteine nei complessi. Le previsioni migliorano per le proteine ben caratterizzate, ma tali informazioni richiedono una purificazione e una caratterizzazione delle proteine costose e dispendiose in termini di tempo. Sapere quali mutazioni provocano il cancro è fondamentale per dare priorità agli studi basati su cellule e animali, ma i programmi di previsione funzionale non possono guidare in modo affidabile questi esperimenti ad alto costo6,9.
Descriviamo l'annotazione funzionale parallela (PFA) per la caratterizzazione ad alto rendimento delle varianti missenso associate al cancro di significato incerto (VUS) senza purificazione delle proteine. Dimostriamo il valore del PFA con tre metiltransferasi dell'istone H3 lisina 4 (H3K4) della famiglia della leucemia di linea mista (MLL) che sono tra i geni mutati più frequentemente nel cancro (Fig. S1A)10,11,12,13,14,15, 16,17,18,19,20. Le mutazioni negli enzimi della famiglia MLL sono associate ad aberrazioni a livello dell'intero genoma nei modelli di metilazione di H3K4, che sono collegati a programmi trascrizionali anormali che promuovono la malignità18,21,22,23. Di centinaia di VUS MLL1-3, la maggior parte si trova in posizioni di aminoacidi senza funzione nota (Fig. S1B). Abbiamo esaminato 99 mutazioni missenso associate al cancro all'interno o attorno ai domini Catalytic Suppressor of Variegation, Enhancer of Zeste, Trithorax (SET), confrontando i risultati con due programmi di previsione funzionale ampiamente utilizzati. Utilizzando l'annotazione funzionale di tre paraloghi MLL, abbiamo scoperto che la combinazione di due parametri filogenici e di clustering ha migliorato l'accuratezza della previsione funzionale basata sulla sequenza a> 90%. Questi risultati forniscono una base per migliorare i metodi computazionali per prevedere gli effetti funzionali delle mutazioni associate al cancro per la scoperta di biomarcatori e la medicina di precisione.
Per comprendere meglio il modo in cui gli strumenti predittivi classificano le mutazioni missenso clinicamente rilevanti nelle famiglie di enzimi frequentemente mutati, abbiamo analizzato funzionalmente VUS nei domini SET catalitici di MLL1-3 (Fig. 1), confrontando i risultati con tre programmi di previsione computazionale ampiamente utilizzati. Gli enzimi MLL catalizzano la metilazione dell'istone H3 lisina 4 (H3K4)24. Le alterazioni sono associate ad aberrazioni a livello dell'intero genoma nella metilazione legate alla malignità. MLL1-3 sono tra i geni più comunemente mutati in tumori multipli25,26. Di centinaia di VUS MLL1-3, la maggior parte si trova in posizioni di aminoacidi senza funzione nota (Fig. S1).
50% of WT. Error bars, standard deviation from 2 independent experiments. (C) Representative results from PFA for MLL3 VUS mutations by fluorography of SDS-PAGE. Upper, Coomassie-stained gel of quenched enzymatic reactions; middle, signal from reactions with H3K4me0 (unmethylated) or H3K4me1 (monomethylated) peptides; bottom, expression of MLL3 variants by Coomassie-stained SDS-PAGE. Assays were as described for Fig. 1, limiting the recombinant subunits required for full enzymatic activity31,32,33 to minimize activity variation from differing MLL expression. Rates of monomethylation and dimethylation were determined using unmodified or monomethylated substrates. Activity depended on recombinant expression (no activity in uninduced control, UIC, lane 1). Lanes 2–11 show representative wild-type (WT) and variant MLL3 complexes, demonstrating that activity variation cannot be explained by differential expression. An uncropped version of Fig. 2C is shown in Fig. S11./p> 50% of wild-type with FATHMM scores > − 0.75. The third region representing false-negative (FN) predictions (48% of mutations) had activity < 50% wild-type and FATHMM scores indicating no disease./p> 0.8 "probably damaging", 0.2 to 0.8 "possibly damaging", < 0.2 benign). (C) CancerVar OPAI scores vs. relative activity of VUS. Vertical line,default threshold (< 0.95) for variants with uncertain probability of oncogenicity. (D) Violin plot of mean activity differences between VUS with low (< 1.5) or high (> 1.5) parallel cluster scores (pClustScore). Significance was from 2-tailed unpaired t-tests. Dashed line, median; dotted lines, upper and lower quartiles. (E) Variant ProxRatioEach scores showing proximity of adjacent missense mutations in each protein, plotted as a function of amino acid position using Mixed Lineage Leukemia (MLL) 1 numbering. (F) Clustal Omega phylogenetic cluster analysis of human SET1/MLL proteins shows three clades diverged in product specificity (me1, 2, 3 is degree of methylation)33. (G) Comparison of family vs. versus clade conservation scores in PolyPhen-2 false-positive (FP) and true-positive (TP) amino acid positions. Two-way ANOVA compared means within groups. ****P < 0.0001; ns, P > 0.05./p> 0.8, predicting "probably damaging." Mutations with activity < 50% of wild-type (53.5% of total) represented TP predictions. All but 4 of the remaining (42% of total) with activity > 50% of wild-type represent FP predictions. PoylPhen-2 incorporated structural information into the predictions7, but in contrast to FATHMM, lacked precision to adequately distinguish FP from TN inferences./p> 50% of wild-type represent FP (18%) and TN (29%) predictions./p> 50% of WT. Mut, mutant. (B) Recursive partitioning classification tree for enzymatic activity using FI-score, pClustScore, ΔAtoms, Blosum62 and ΔΔG parameters for MLL1-3 VUS. Circles, internal nodes that can be partitioned into subnodes; boxes, terminal nodes; red, VUS with activity ≤ 50% of WT; blue, VUS with activity > 50% of WT. Circles, P values input nodes; box plots of Activity(MT/WT) values are in terminal nodes. (Goodness of Fit R2 = 0.65, RMSE = 0.22) (C) Confusion matrix showing predictive accuracy of the tree based on the tenfold cross-validation scheme. The recursive partitioning algorithm was repeated85 with 10 rounds of fitting, each using randomly chosen data subsets, with 90% training set and 10% testing set. D-G) Actual vs. Predicted plots. X-axes, actual activity; y-axes, predicted activity based on the regression model. Red diagonal line, line of identity; dashed lines, cutoff for VUS with less than or greater than 50% WT activity. (D) FI-Score and pClustScore parameters as predictors. (E) FATHMM inference score as predictor. (F) PolyPhen-2 inference score as predictor. (G) CancerVar Oncogenic Prioritization by Artificial Intelligence (OPAI) score as predictor. Shown are adjusted R2 values./p> 3.005 were correctly classified as LOF with very low activity (P < 0.001). For VUS variants with FI-Scores ≤ 3.005, pClustScore became the major factor distinguishing high- vs. low-activity variants. Blosum62, ΔAtoms and ΔΔG parameters were not significant. Thus, combining FI-Score and pClustScore was significantly better at predicting the functional impact of VUS mutations (R2 = 0.63) than FATHMM (R2 = 0.0002), PolyPhen-2 (R2 = 0.05) or CancerVar (R2 = 0.001) (Fig. 5D–G)./p> 95% purity. For methyltransferase assays, an equal volume of wild-type or mutant lysate was incubated with 3 µM WRAD, 250 µM H3 peptide (unmodified or monomethylated), and 1–2 µCi [3H]-SAM (PerkinElmer Life Sciences) in assay buffer (20 mM Tris pH 8.5, 1 mM TCEP, 200 mM NaCl, 1 µM ZnCl2). Samples were incubated at 15 °C for 30 min. Lysates from cells transformed with empty vector (pGST II) or uninduced wild-type plasmids served as negative controls. Reactions were quenched with 0.5 M EDTA (1:1, v:v). Quenched reactions were brought to 200 µL using assay buffer with 0.5 M EDTA and 0.2 mg/ml BSA and transferred to 96-well streptavidin-coated FlashPlate microplates (PerkinElmer). Samples were incubated overnight at 4 °C to allow binding of biotinylated H3 peptide to the streptavidin-coated surface before scintillation counting in a Hidex Sense Plus microplate reader (LabLogic). For the gel-based fluorography assays, reactions were quenched with SDS-loading buffer and separated by 4–12% BisTris SDS-PAGE (LifeTechnologies) at 200 V for 30 min. Gels were stained with Coomassie, imaged, then placed in enhancing solution (Enlightening, PerkinElmer Life Sciences) for 30 min at room temperature. Gels were dried for 2.5 h at 72 °C under constant vacuum and exposed to film (Eastman Kodak Co. Biomax MS Film) at − 80 °C for 6–72 h before developing. Densitometry using ChemiDoc ImageLab (BioRad) software was used to quantify H3 peptide methylation./p>