banner
Nachrichtenzentrum
Schlank und modern

Umherziehende Methyltransferasen erzeugen eine mosaikartige epigenetische Landschaft und beeinflussen die Evolution in der Bacteroides fragilis-Gruppe

Aug 20, 2023

Nature Communications Band 14, Artikelnummer: 4082 (2023) Diesen Artikel zitieren

3773 Zugriffe

41 Altmetrisch

Details zu den Metriken

In bakteriellen Genomen wurden drei Arten von DNA-Methylmodifikationen nachgewiesen, und mechanistische Studien haben gezeigt, dass die DNA-Methylierung eine Rolle bei physiologischen Funktionen spielt, die von der Phagenabwehr bis zur transkriptionellen Kontrolle von Virulenz und Wirt-Pathogen-Interaktionen reichen. Trotz der Allgegenwärtigkeit von Methyltransferasen und der immensen Vielfalt möglicher Methylierungsmuster bleibt die epigenomische Vielfalt für die meisten Bakterienarten unerforscht. Mitglieder der Bacteroides fragilis-Gruppe (BFG) kommen im menschlichen Magen-Darm-Trakt als Hauptakteure in symbiotischen Gemeinschaften vor, können aber auch anaerobe Infektionen hervorrufen, die zunehmend multiresistent sind. In dieser Arbeit verwenden wir Long-Read-Sequenzierungstechnologien, um pangenomische (n = 383) und panepigenomische (n = 268) Analysen klinischer BFG-Isolate durchzuführen, die aus Infektionen kultiviert wurden, die im NIH Clinical Center über vier Jahrzehnte beobachtet wurden. Unsere Analyse zeigt, dass einzelne BFG-Arten Hunderte von DNA-Methylierungsmotiven beherbergen, wobei die meisten einzelnen Motivkombinationen nur in einzelnen Isolaten vorkommen, was auf eine immense, nicht abgetastete Methylierungsvielfalt innerhalb der BFG-Epigenome schließen lässt. Beim Abbau von BFG-Genomen wurden mehr als 6.000 Methyltransferase-Gene identifiziert, von denen etwa 1.000 mit intakten Prophagen assoziiert waren. Die Netzwerkanalyse ergab einen erheblichen Genfluss zwischen unterschiedlichen Phagengenomen, was darauf hindeutet, dass der genetische Austausch zwischen BFG-Phagen eine der entscheidenden Quellen für die Diversität der BFG-Epigenome darstellt.

Methylierung genomischer DNA wurde in allen drei Bereichen des zellulären Lebens sowie bei Viren nachgewiesen1,2,3. Eukaryotengenome zeigen eine dynamische Methylierung von Cytosin an der C5-Position (5 mC) in bestimmten CpG-Kontexten (5'-CG-3'), und die Regulierung dieser CpG-Methylierung an bestimmten Stellen beeinflusst die Transkription4, die Genomreparaturdynamik und die Genomverdichtung5. Im Gegensatz dazu weisen Bakterien eine motivspezifische DNA-Methylierung auf (z. B. 5'-CC-6mA-TGG-3'), wobei nahezu alle Instanzen eines bestimmten Motivs methyliert sein können6. Ähnlich wie bei eukaryotischen Genomen sind 5mC-Modifikationen häufig; Bakteriengenome weisen jedoch eine zusätzliche Methylierung an der N4-Position von Cytosinen (4mC) und am häufigsten an der N6-Position von Adeninen (6mA)6 auf. Die bakterielle DNA-Methylierung wird durch DNA-Methyltransferasen durchgeführt, von denen einige offenbar in allen Stämmen einer bestimmten Art vorhanden und aktiv sind (z. B. Dam, das GATC in Escherichia coli modifiziert), während andere DNA-Methyltransferasen und die Gene, die sie kodieren, nur vorübergehend sind Sie gewinnen und gehen im Laufe der Zeit verloren und sind für die Lebensfähigkeit in einer Kultur nicht unbedingt erforderlich7. Klassischerweise wurde die bakterielle DNA-Methylierung in erster Linie als Nebenprodukt der Anti-Phagen-Abwehr auf der Grundlage von Restriktions-Modifikations-Systemen verstanden8. Mittlerweile sind jedoch auch andere physiologische Folgen der Aufrechterhaltung methylierter DNA, oft an Tausenden von Orten, klar geworden. Studien haben gezeigt, dass die bakterielle DNA-Methylierung eine Rolle bei der Regulierung der Transkriptionsaktivität, der Steuerung von Virulenzphänotypen9,10,11 und anderen physiologischen Programmen12,13, der Genomstabilität14,15 und der Beeinflussung der Mutationshäufigkeit innerhalb methylierter Motive16,17 spielt, ähnlich wie bei Beobachtungen in eukaryotischen Systemen.

Bakterien der Gruppe Bacteroides fragilis (BFG) repräsentieren mehr als ein Dutzend Arten der Gattungen Bacteroides, Parabacteroides und der kürzlich eingeführten Phocaeicola18. Diese reichlich vorhandenen Symbionten kommen leicht anaerob im menschlichen Magen-Darm-Trakt vor und sind an vielen wichtigen Stoffwechsel- und Immunfunktionen beteiligt19,20,21. Sie gehören auch zu den am häufigsten bei extraintestinalen anaeroben Infektionen gewonnenen Bakterien und sind zunehmend resistent gegen viele Antibiotika, darunter Cephalosporine und Carbapeneme22,23. Ihr breites phänotypisches Spektrum wird teilweise durch Phasenvariation, eine Reihe von Polysaccharid-Nutzungsorten und die Verwendung invertierbarer Promotoren ermöglicht24,25.

In dieser Arbeit wurden klinische Isolate aus einer historischen BFG-Sammlung aus vier Jahrzehnten mithilfe einer Kombination aus kurzer und langer Genomsequenzierung, Methylomanalyse und Phänotypisierung der antimikrobiellen Empfindlichkeit untersucht. Der umfassende Umfang der in dieser Studie durchgeführten Methylomanalyse in Kombination mit zusammenhängenden Long-Read-Assemblys offenbarte eine epigenetische Landschaft in klinischen BFG-Isolaten von immenser und bisher nicht gewürdigter Vielfalt. Hunderte von DNA-Methylierungsmotiven mit 5mC, 4mC und 6mA wurden im gesamten Genom identifiziert, wobei fast alle Motivkombinationen nur in einzelnen Isolaten beobachtet wurden. Einige DNA-Methylierungsmotive waren in bestimmten Abstammungslinien innerhalb einer Art stark angereichert, und in denselben Abstammungslinien wurden häufig Hinweise auf eine genomweite Erschöpfung dieser Motivsequenzen beobachtet, was auf eine Selektion schließen lässt und darauf hinweist, dass die DNA-Methylierung ein Treiber der Genomentwicklung in der BFG ist.

Mehr als 600 klinische BFG-Isolate, die im Rahmen der Routineversorgung von Patienten im NIH Clinical Center in Bethesda, MD, USA, kultiviert wurden, wurden zwischen 1973 und 2018 gesammelt und kryogen gelagert. Aus dieser Sammlung wurde ein Satz von 383 Isolaten ausgewählt, um einen Bereich darzustellen von Daten, Arten und antimikrobiellen Resistenzprofilen. Isolatgenome wurden mit Long-Read-Nanoporensequenzierung (n = 383) sequenziert, und eine repräsentative Teilmenge (n = 13) erhielt zusätzliche PacBio SMRT-Sequenzierung (Supplementary Data 1). Es wurde eine De-novo-Assemblierung von Genomen durchgeführt, und bei 68,1 % (261/383) der Isolate wurden die Chromosomen als einzelnes, kreisförmiges Contig (ergänzende Abbildung 1A) mit einer Länge von 3,9 bis 7,2 Megabasen zusammengesetzt. Die Auswertung der Qualität der Baugruppen zeigte, dass sich in diesen Baugruppen lange, sich wiederholende Bereiche aufgelöst werden konnten. Beispielsweise enthielten einige Isolate mehr als zehn Tandem- und Nicht-Tandem-Kopien von Tn4555, einem 12 Kilobasen (kb) großen Transposon, das cfxA, ein Beta-Lactamase-Gen,26 trägt, und der Long-Read-Ansatz ermöglichte die Auflösung der Kopienzahl und der Genompositionen dieser Wiederholungen ( Ergänzende Abbildung 1B). Darüber hinaus zeigte die Analyse zirkularisierter Genome, dass zwischen 3 und 7 rRNA-Operons (jeweils> 5 kb) in Assemblies nachgewiesen werden konnten (ergänzende Abbildung 1C). Die Anzahl der identifizierten rRNA-Operons pro zirkulärem Chromosom entsprach in fast allen Fällen den erwarteten Werten für die Art, basierend auf Daten aus der Ribosomal RNA Database27.

Die Taxonomie jedes Isolats wurde mit zwei Methoden untersucht. Zunächst wurde der Bruker Biotyper28,29 zur Analyse von Bakterienlysaten mittels MALDI-TOF-Massenspektrometrie verwendet. Anschließend wurde GTDB-Tk30 auf Genomsequenzen angewendet, um sie jeweils in einen Behälter auf Artenebene zu platzieren (Abb. 1). Diese Methoden waren weitgehend kongruent und stimmten bei 360/383 Isolatgenomen (94,0 %) überein, obwohl eine unterschiedliche Anzahl endgültiger Artenbezeichnungen gemeldet wurde, wobei 15 durch MALDI-TOF und 21 durch GTDB-Tk identifiziert wurden. Diese Diskrepanzen lassen sich teilweise dadurch erklären, dass die GTDB-Tk eine neuere Taxonomiestruktur verwendet, die einige relevante Arten/Gattungen aufgespalten hat. Auf der Grundlage der Bruker-Biotyper-Identifizierung war Bacteroides fragilis sensu stricto die häufigste Art in der Gruppe der Isolate und lieferte 135 eindeutige Zuordnungen auf Artenebene, gefolgt von Bacteroides thetaiotaomicron (n = 80), Bacteroides ovatus (n = 51) und Bacteroides vulgatus (n = 32) (siehe Methoden). Die genetische Vielfalt dieses Datensatzes wurde durch die paarweisen Nukleotidähnlichkeitsabstände zwischen allen Isolatgenomen visualisiert (ergänzende Abbildung 2), was eine klare Clusterbildung auf Artenebene zeigt. Es ist zu beachten, dass der Name Phocaeicola vulgatus kürzlich für Bacteroides vulgatus (B. vulgatus) vorgeschlagen und akzeptiert wurde29. Der Name B. vulgatus wird in diesem Manuskript aus Gründen der Konsistenz mit dem Großteil der vorhandenen Literatur beibehalten.

MLST-Markergen-Kladogramm der in dieser Studie sequenzierten BFG-Genome, ergänzt durch Genbank-Referenzgenome (n = 462 insgesamt). Taxonomiezuordnungen wurden proteomisch mit MALDI-TOF-Massenspektrometrie (Bruker Biotyper) und genomisch mit GTDB-Tk definiert. „Quelle“- und „Jahrzehnt“-Daten wurden aus Metadatenaufzeichnungen klinischer Labore extrahiert.

Für sieben Antibiotika (Ampicillin, Ampicillin/Sulbactam, Piperacillin/Tazobactam, Meropenem, Metronidazol, Moxifloxacin, Clindamycin und Tetracyclin) wurden antimikrobielle Empfindlichkeitstests an 324 sequenzierten Isolaten mit der Referenzagar-Verdünnungsmethode durchgeführt (Abb. 1 und ergänzende Daten 2). Diese Tests zeigten heterogene und komplexe Resistenzmuster unter den Isolaten jeder Art, wobei die Isolate aus dem letzten Jahrzehnt ähnliche Resistenzmuster aufwiesen wie andere veröffentlichte Arbeiten23,29. In Übereinstimmung mit früheren Studien stellten wir fest, dass die Resistenz gegen mehrere Antibiotika, darunter Piperacillin-Tazobactam und Meropenem, bei bestimmten Arten wie B. fragilis und B. ovatus in den 1980er bis 2010er Jahren offenbar zugenommen hat (ergänzende Abbildung 3A). Dies wurde in gewissem Maße durch einen gleichzeitigen Anstieg bestimmter antimikrobieller Resistenzgene im gleichen Zeitraum gestützt (ergänzende Abbildung 3B).

Die Pangenomanalyse31 von acht Arten aus der aktuellen Studie, ergänzt durch zusätzliche GenBank-Referenzgenome, ergab, dass die akzessorischen Genfamilien (Wolke und Schale) in jeder Art zwischen 29,0 % (Bacteroides faecis) und 42,2 % (B. ovatus) des gesamten Gengehalts variierten ( Abb. 2a). Darüber hinaus zeigten die Verdünnungsanalyse (Abb. 2b) und Schätzungen nach dem Heap-Gesetz (Ergänzungstabelle 1), dass das Pangenom jeder Art offen blieb und einige Arten mehr als 20.000 abgetastete Gene im Datensatz enthielten, was bedeutet, dass eine immense Anzahl zusätzlicher Genfamilien auf uns wartet Entdeckung innerhalb der BFG. Diese Pangenom-Offenheit stimmt weitgehend mit den aus dem Darm stammenden, aus dem Metagenom von Bacteroides zusammengesetzten Genomen überein32.

a Gestapelte Balkendiagramme zur Quantifizierung der durchschnittlichen Anzahl von Persistent-, Muschel- und Wolkengenen bei acht Arten. b Pangenomanalyse für eine Untergruppe von BFG-Arten. Seltenheitskurven weisen auf offene Pangenome im gesamten sequenzierten Satz hin, wobei die drei größten Pangenome jeweils mehr als 20.000 Gene aufweisen. c Analyse der akzessorischen Region und des Gehalts mobiler genetischer Elemente. Das obere Feld zeigt Ausbreitungsbereiche auf Artenebene für mehr als 33.000 akzessorische Regionen/mobile genetische Elemente. „Art“ gibt die Anzahl der Arten an, die die angegebene Anzahl an akzessorischen Regionen oder mobilen genetischen Elementen gemeinsam haben. Das gepaarte Balkendiagramm im unteren Bereich zeigt die mit Anmerkungen versehenen Merkmale der Zubehörregionen als Prozentsatz jedes gepaarten Spread-Level-Bins im oberen Bereich an.

Um den Fluss von Genen und mobilen genetischen Elementen zwischen Genomen und Arten zu verstehen, wurden 31.436 akzessorische Regionen (DNA-Sequenzen mit einer Länge von mehr als 3 kb, die nur akzessorische Gene kodieren, Ergänzungsdaten 3) aus 414 Genomen extrahiert, die 13 Arten repräsentieren, für die drei oder mehr Genome vorhanden waren verfügbar (378 Genome aus dieser Studie und 36 Genome aus NCBI)33. Der Vergleich jeder Sequenz der akzessorischen Region mit allen anderen in diesem Satz zeigte, dass mehr als 10 % dieser Regionen zwischen den Arten geteilt wurden, was auf einen horizontalen Transfer hindeutet (Abb. 2c). Jede akzessorische Region wurde auf eine Vielzahl von Merkmalen untersucht, und es wurde festgestellt, dass Phagen, Phagenabwehrsysteme, DNA-Methyltransferasen, konjugative Maschinen, Episomen/Plasmide und Gene für antimikrobielle Resistenz (AMR) alle häufiger in akzessorischen Regionen vorkommen, die in drei oder drei Regionen nachgewiesen wurden mehr Arten (Abb. 2c). Beispielsweise wurden in 12 von 13 analysierten Arten akzessorische Regionen nachgewiesen, die für das Tetracyclin-Resistenzgen tet(Q) und/oder eine Kassette mit den Genen tet(X)1, tet(X)2 und das Aminoglycosid-modifizierende Enzym aadS kodieren (Abb. 2 und ergänzende Abbildung 4), was wahrscheinlich eine Vorgeschichte von selektivem Druck durch Tetracyclin- und Aminoglycosidverbindungen bestätigt.

Viele pathogene Bakterien von medizinischer Bedeutung, darunter Enterobacterales und verwandte Gammaproteobakterien, tragen einen großen Anteil der AMR-Gene extrachromosomal auf Plasmiden34. Der in dieser Arbeit analysierte Datensatz ergab 575 vollständige zirkuläre Plasmide oder Episomen in den 383 sequenzierten Isolatgenomen (Ergänzungsdaten 4), die zu 85 Clustern mit einer durchschnittlichen Nukleotididentität von> 95 % gehörten (siehe Methoden) (Ergänzende Abbildung 5A). Die Mehrheit der zirkulären Contigs (550 von 575; 95,7 %) hatte erkennbare Plasmidgene wie Replikasen oder Relaxasen (siehe Methoden), und ein Teil des Rests könnte replikative Zwischenprodukte von Transposons darstellen, dies wurde jedoch nicht weiter analysiert. Trotz der Allgegenwärtigkeit sowohl von Plasmiden/Episomen als auch von AMR-Genen in den Sequenzierungsdaten stellten wir fest, dass sich die meisten dieser AMR-Gene nicht auf Plasmiden/Episomen unter BFG-Arten befanden (53 von 1911 AMR-Genen befanden sich innerhalb kreisförmiger Plasmid-/Episomen-Contigs). . Die überwältigende Mehrheit (>97,2 %) der AMR-Gene schien sich innerhalb der Chromosomen zu befinden, und viele waren mit integrativen Elementen assoziiert23. Viele der von Plasmiden/Episomen kodierten AMR-Gene schienen auch mit der Integration integrativer Elemente in Plasmidrückgrate verbunden zu sein, was mit einem möglichen Pendelverkehr von AMR-Genen zwischen Chromosomen und Plasmiden/Episomen übereinstimmt (ergänzende Abbildung 5B).

Es wird vermutet, dass DNA-Methyltransferasen in vielen Bakterienarten als eine Klasse globaler Regulatoren fungieren könnten7. Methyltransferasen modifizieren normalerweise DNA an kurzen Motiven, die an Tausenden von Stellen vorhanden sind, die weit über intragenische Regionen und Genkörper von Bakteriengenomen verstreut sind, und somit kann die Expression eines einzelnen Methyltransferase-Gens wiederum globale Methylierungszustände steuern. Es ist bekannt, dass Methylierung sowohl an intra- als auch an intergenen Stellen Transkriptionsprogramme beeinflusst und bakterielle Phänotypen abstimmt9,10,11,12,13. Ein erheblicher Anteil der bakteriellen Methyltransferase-Gene wiederum wurde in Verbindung mit mobilen genetischen Elementen beobachtet, insbesondere in akzessorischen Regionen bakterieller Genome35,36. Um die Identifizierung von Methyltransferasen in BFG-Genomdaten zu erleichtern, haben wir auf früheren Ansätzen des Hidden-Markov-Modells37 aufgebaut, um ein öffentlich zugängliches Tool, DNA Methylase Finder, zu entwickeln, um DNA-Methyltransferase-Gene und die Gennachbarschaften, zu denen sie gehören, zu erkennen und zu kommentieren (https://github.com). .com/mtisza1/DNA_methylase_finder). In einer Benchmarking-Studie dieses Tools mit einem REBASE-Datensatz annotierter Methylierungsmotive (siehe Methoden) wurde eine Sensitivität von 100 % und eine Falsch-Positiv-Rate von bis zu 5,4 % beobachtet.

Mit dem DNA Methylase Finder wurden 6011 DNA-Methyltransferase-Gene in 462 BFG-Genomen nachgewiesen (Genome aus dieser Studie ergänzt durch zusätzliche BFG-Genome, die von GenBank heruntergeladen wurden) (Supplementary Data 5). Diese Gene wurden in 536 Familien eingeteilt (Ergänzungsdaten 6) (siehe Methoden), die alle bekannten Typen (Typ I, Typ II, Typ IIG, Typ III sowie DNA-Methyltransferasen, die nicht klassifiziert werden konnten und als „unbekannt“ gekennzeichnet sind) repräsentieren. ). In jedem analysierten Genom wurden zwischen zwei und 38 DNA-Methyltransferase-Gene nachgewiesen, und Methyltransferase-Genfamilien konnten in den persistenten, Schalen- und Wolkenpartitionen der Pangenome dieser Arten gefunden werden, was ein breites Spektrum an Mobilität zeigte (Abb. 3). Von den 5480 DNA-Methyltransferase-Genen, die zu den 15 analysierten Arten in Abb. 3 gehörten, befanden sich 720 (13,1 %) in der Kernpartition, 2385 (43,5 %) in der Schalenpartition und 2375 (43,3 %) in der Wolkenpartition .

Wirtsarten werden in der oberen Reihe als Quadrate dargestellt (Fläche proportional zur Anzahl der analysierten Genome). DNA-Methyltransferase-Genfamilien (80 % AAI, 80 % AF) werden unten in rechteckigen Gittern als gefüllte Kreise (mit einer Fläche proportional zur Anzahl der Gene in der Familie) dargestellt, wobei die Farben im Schlüssel angegeben sind. Kanten verbinden Arten mit DNA-Methyltransferase-Genfamilien, die von einem oder mehreren Genomen innerhalb der Art kodiert werden. Die Position der jeweiligen Methyltransferase-Genfamilie im Kern-, Schalen- oder Wolkengenom wird durch die Kantenfarbe angezeigt, und die Kantendicke gibt an, wie oft die Genfamilie im Genom der Art kodiert wird. In dieser Analyse wurde „Kern“ als Vorkommen in >90 % der Genomen einer Art definiert, „Hülle“ als Vorkommen in >10 % und ≤90 % der Genomen einer Art und „Wolke“ als Vorkommen in <10 % des Genoms einer Art.

Die Anzahl der Methyltransferasen, die wir mit dieser Methode identifiziert haben, ist möglicherweise größer als aufgrund früherer Berichte erwartet. Wir gehen davon aus, dass ein Teil der identifizierten mutmaßlichen Methyltransferasen wahrscheinlich inaktiv ist, und darüber hinaus zeigte die Methode eine Falsch-Positiv-Entdeckungsrate von bis zu 5,4 %, gemessen an der REBASE-Datenbank, sodass es sich bei einem kleinen Prozentsatz möglicherweise um falsch-positive Identifizierungen handelt. Wir stellten jedoch auch fest, dass viele Genome mehr als eine Methyltransferase mit nahezu identischer Sequenz enthielten, in vielen Fällen im Zusammenhang mit dem Kontext mobiler genetischer Elemente. Daher kann die große Zahl teilweise auf Duplikationen aufgrund von Transposon-Insertionen zurückzuführen sein. Es ist sehr wahrscheinlich, dass Studien, die auf Short-Read-Sequenzierung basieren, die Anzahl solcher Methyltransferase-Duplikate aufgrund des Zusammenbruchs während des Zusammenbaus unterschätzen. Die 38 mutmaßlichen Methyltransferasen, die vom Isolat BFG-632 (Supplementary Data 7) kodiert werden und von denen es sich bei einigen offenbar um doppelte Insertionen handelte, wurden mit BlastP abgefragt und 37/38 lieferten Treffer mit einer Aminosäureidentität von> 90 % zu zuvor identifizierten DNA-Methyltransferasen. Interessanterweise stellten wir im Verlauf unserer Analyse fest, dass innerhalb jeder Art eine positive Korrelation zwischen der Genomgröße und der Anzahl mutmaßlicher DNA-Methyltransferasen besteht (ergänzende Abbildung 6). BFG-632 ist das längste Genom in der gesamten Sammlung, was mit der größten Anzahl an Methyltransferasen übereinstimmt.

Eine zusätzliche Annotation von Genen stromaufwärts und stromabwärts der identifizierten mutmaßlichen DNA-Methyltransferasen zeigte, dass Spezifitätsuntereinheiten fast ausschließlich in der Nähe mutmaßlicher Typ-I-DNA-Methyltransferasen nachgewiesen werden (ergänzende Abbildung 7A). Darüber hinaus wurden Restriktionsendonukleasen in der Nähe von 100 % der mutmaßlichen DNA-Methyltransferasen vom Typ III nachgewiesen, und die meisten DNA-Methyltransferasen vom Typ II sind offensichtliche Waisen, ohne dass vicinale Restriktionsendonukleasen identifiziert wurden (ergänzende Abbildung 7B). Diese zusätzlichen Merkmale erhöhen das Vertrauen in viele dieser Methyltransferase-Identifizierungen.

Die obige Annotation der Gennachbarschaften von DNA-Methyltransferasen deutete darauf hin, dass DNA-Methyltransferase-Gene häufig in der Nähe von phagenbezogenen Genen gefunden wurden. Um diese Beziehung detaillierter zu untersuchen, wurden mutmaßliche Prophagenregionen jedes Genoms durch Scannen zusätzlicher Regionen mit Cenote-Taker 238 und CheckV39 extrahiert. Dabei wurden 1255 mögliche Prophagenregionen entdeckt, von denen die meisten als vollständige Genome vorhergesagt wurden (Ergänzungsdaten 8–10). . Die Mehrheit (n = 824) dieser Prophagen kodierte für mindestens ein DNA-Methyltransferase-Gen, was 1089 der 6011 DNA-Methyltransferase-Gene im Genomsatz ausmacht. Die 1255 mutmaßlichen Prophagen konnten in 411 Virus Operational Taxonomic Units (vOTUs) gruppiert werden (Supplementary Data 9) (siehe Methoden). Bemerkenswerterweise gab es eine erhebliche Vielfalt des Methyltransferase-Gengehalts innerhalb einzelner vOTUs in Kombination mit einer breiten Streuung einzelner Methyltransferase-Genfamilien über unterschiedliche Phagengenome hinweg (Abb. 4 und ergänzende Abb. 8). Insgesamt deutet dies nicht nur darauf hin, dass es einen erheblichen Methyltransferase-Genfluss zwischen den BFG-Phagengenomen gibt, sondern auch darauf, dass unterschiedliche BFG-Phagengenome als wichtige Quellen genetischer Vielfalt füreinander dienen können, was es den Empfängern möglicherweise ermöglichen könnte, Restriktionsmodifikationssysteme zu untergraben35.

Netzwerkdiagramm von Clustern phagenviraler operativer taxonomischer Einheiten (vOTU) und DNA-Methyltransferase-Genfamilien (80 % AAI, 80 % AF), angezeigt durch Knoten unterschiedlicher Form, wie in der Legende definiert. Die Formgröße ist proportional zur Anzahl der Phagengenome innerhalb eines bestimmten vOTU-Clusters oder der Methyltransferase-Gene innerhalb einer Genfamilie. Kanten verbinden Methyltransferase-Genfamilien und vOTU-Cluster, die Prophagengenome enthalten, die ein Methyltransferase-Gen aus dieser Methyltransferase-Genfamilie kodieren. Die Kantendicke ist proportional zur Anzahl der Genome, die die entsprechende Genfamilie kodieren.

Die Oxford Nanopore-Sequenzierungstechnologie wurde verwendet, um 6-mA-, 4-mC- und 5-mC-Modifikationen mit kürzlich entwickelten Methoden zu identifizieren. Nanodisco ist ein leistungsstarker Ansatz zur Erkennung von Methylierungsmustern, der durch den Vergleich roher Nanoporen-Sequenzierungsspuren auf aktueller Ebene für native methylierte genomische DNA mit vorbereiteter unmodifizierter DNA40 funktioniert. Um die von Nanopore und Nanodisco für diesen Datensatz vorgenommenen Methylierungsaufrufe mit einer anderen Methode zu vergleichen, wurde die Identifizierung des Methylierungsmotivs von PacBio und Nanodisco für eine Teilmenge von sechs Isolaten durchgeführt, die sechs Arten repräsentieren, für die Sequenzierungsdaten für beide Methoden erhalten wurden (Methoden). Dieser Vergleich ergab eine Übereinstimmung der Ergebnisse für 6 mA und 4 mC. PacBio SMRT-Sequenzierung identifizierte 29/33 6-mA-Motivaufrufe und 2/2 4mC-Motivaufrufe von Nanodisco. Zwei von Nanodisco getätigte 5-mC-Anrufe wurden durch PacBio-Sequenzierung nicht identifiziert, was mit der beobachteten geringeren Empfindlichkeit des PacBio-Ansatzes für 5 mC übereinstimmt (Ergänzungstabelle 2).

Die Nanodisco-Methode wurde dann auf 268 Genome aus der BFG-Sammlung von fünf Arten angewendet, wobei die Methylierungsmotive manuell kuratiert wurden (wie in Methoden und ergänzenden Abbildungen 9–10 beschrieben). Durch De-novo-Entdeckung wurden insgesamt 639 verschiedene Methylierungsmotive nachgewiesen (Abb. 5 und ergänzende Daten 11). Bemerkenswerterweise scheint die Anzahl der unterschiedlichen Methylierungsmotive im analysierten Datensatz auf der Grundlage der Verdünnungskurven (Abb. 5a) und der Schätzungen des Heap-Gesetzes (Ergänzungstabelle 3) weit von der Sättigung entfernt zu sein, was auf eine immense Anzahl der von der BFG verwendeten Gesamtmotive schließen lässt. Zusätzlich zu dieser Vielfalt einzelner Methylierungsmotive, die in diesem Probensatz beobachtet wurden, waren die meisten Motivkombinationen einzigartig, nur in einzelnen Isolaten vorhanden, was eine zusätzliche Schicht kombinatorischer Vielfalt erzeugte und auf eine große Anzahl von Motivkombinationen innerhalb von BFG schließen lässt, die dies noch nicht getan haben beprobt wurden (ergänzende Abbildung 11). Obwohl die meisten Motive nur bei einer einzigen Art nachgewiesen wurden, wurden zwei Motive (CTGCAG und GATC) in mindestens einem Isolat aller fünf analysierten Arten nachgewiesen. Eine Studie mit Bifidobacterium breve-Isolaten unter Verwendung von PacBio- und Bisulfit-Sequenzierung41 und eine weitere Studie zu Clostrioides difficile unter ausschließlicher Verwendung von PacBio-SMRT-Sequenzierung (geringere Empfindlichkeit für 5 mC ohne Methodenmodifikation9) zeigten eine stärkere Sättigung des Panepigenoms in diesen Taxa (Daten aus diesen Studien aufgezeichnet). in Abb. 5a). Es ist möglich, dass ein weniger vielfältiger Probensatz oder eine geringere Empfindlichkeit für die Erkennung von Motiven zu einer scheinbaren Sättigung bei geringerer Genomabdeckung führen könnte. Diese Ergebnisse legen jedoch nahe, dass BFG-Arten möglicherweise eine größere Vielfalt an Methylierungsmotiven und Motivkombinationen enthalten als andere gastrointestinale Anaerobier.

a Seltenheitskurven von DNA-Methylierungsmotiven, die in dieser Studie in Genomen von BFG-Arten nachgewiesen wurden, und Vergleich mit C. difficile- und B. breve-Arten aus externen Studien (gekennzeichnet mit „*“; Daten9,41). BFG-Verdünnungskurven weisen auf offene Panepigenome im sequenzierten Isolatsatz hin. b–f Heatmaps erkannter DNA-Methylierungsmotive in Parabacteroides distasonis-, B. vulgatus-, B. fragilis (sensu stricto)-, B. ovatus- und B. thetaiotaomicron-Isolaten. Die Zeilen zeigen einzelne Isolate mit entsprechenden marginalen MLST-Markergen-Phylogenien an. Die Spalten geben unterschiedliche Methylierungsmotive an. Die drei häufigsten Motive in jedem Satz sind beschriftet, für den Rest wird auf Beschriftungen verzichtet. Zellen werden gefärbt, wenn ein bestimmtes Motiv im entsprechenden Isolat vorhanden ist, und Farben geben die Klasse der Basenmodifikation an, wie in der Legende angegeben. Sequenzen aller Motive finden Sie in Supplementary Data 10.

Für jede Art in der Analyse (B. fragilis, B. thetaiotaomicron, B. ovatus, B. vulgatus und P. distasonis) wurde das Vorhandensein oder Fehlen jedes DNA-Methylierungsmotivs in Bezug auf einen phylogenetischen Baum von Markergenen darin untersucht die Art (Abb. 5b–f). Wie oben erwähnt, waren die meisten methylierten Motive nur in einzelnen Isolaten im Satz vorhanden. Eine kleine Anzahl von DNA-Methylierungsmotiven wurde in allen Isolaten einer Art methyliert (z. B. CTCAT in B. fragilis oder CGCG, CCAGG und CCTGG in P. distasonis). Einige Motive waren größtenteils oder vollständig innerhalb einer Unterart-Abstammungslinie methyliert (z. B. GATC in B. ovatus), während andere Motive unabhängig von der Phylogenie verteilt zu sein schienen (z. B. CCWGG in B. thetaiotaomicron). Mit Ausnahme von zwei B. thetaiotaomicron-Isolaten und einem B. vulgatus-Isolat wurde in allen Genomen mindestens ein methyliertes Motiv nachgewiesen.

Es ist bekannt, dass die Transkriptionsregulation von AMR-Genen eine wichtige Rolle bei der Expression von Resistenzphänotypen in vielen verschiedenen Arten spielt, und neuere Arbeiten haben gezeigt, dass die AMR-Genexpression und Resistenzphänotypen spezifisch durch Methylierung reguliert werden können10,42. Daher suchten wir nach DNA-Methylierungsmotiven im Genkörper und dem Promotor von AMR-Genen in BFG, die die Transkription beeinflussen könnten. Um die Häufigkeit und Verteilung solcher Motive zu untersuchen, wurden AMR-Gene und ihre Upstream-Regionen (200 Nukleotide) aus den Genomen von B. fragilis, B. thetaiotaomicron, B. ovatus, B. vulgatus und P. distasonis extrahiert und mit 99 % Nukleotiden derepliziert Identität (siehe Methoden). Diese AMR-Genregionen wurden dann auf das Vorhandensein von Motiven untersucht, die in mindestens einem Genom der entsprechenden Art gefunden wurden (ergänzende Abbildung 12A – E). Bemerkenswerterweise wurden in jeder profilierten AMR-Region zumindest bei einigen Isolaten mehrere DNA-Methylierungsmotive im Genkörper und in der Upstream-/Promotorregion nachgewiesen.

Um die weitere Frage zu stellen, ob sich die Motivdichte in den AMR-Genkörpern von der des Rests des Genoms unterscheidet, führten wir eine Analyse der Methylierung in AMR-Genen im Vergleich zu Nicht-AMR-Genen in den fünf Hauptarten durch, für die es genügend Zahlen gab von Isolaten. In dieser Analyse wurde ein direkter Zusammenhang zwischen Motivinhalt und GC-Gehalt deutlich. Aufgrund dieser Korrelation wurde die Motivdichte als Funktion des GC-Gehalts für AMR-Gene im Vergleich zu Nicht-AMR-Genen analysiert. Diese Analyse ergab keine aggregierten systematischen Unterschiede zwischen der Motivdichte (angepasst an den GC-Gehalt) in AMR-Genen und Nicht-AMR-Genen (ergänzende Abbildung 13). Ob die Methylierung in einem dieser AMR-Gene oder assoziierten Promotorregionen Auswirkungen auf die Resistenz gegen antimikrobielle Mittel hat, bedarf weiterer Untersuchungen.

Eine Untergruppe von DNA-Methylierungsmotiven zeigte ein starkes phylogenetisches Signal, das in den meisten oder allen eng verwandten Genomen vorhanden war, in weiter entfernt verwandten Genomen derselben Art jedoch selten oder gar nicht zu sehen war. Diese Anreicherung wurde als Hinweis darauf interpretiert, dass Genompositionen mit diesem Motiv in diesen Abstammungslinien seit dem letzten gemeinsamen Vorfahren methyliert wurden. Wenn die Toleranz dieser Modifikationen an einigen Stellen im Genom nach der Einführung einer Methyltransferase mit negativen Fitnesskosten verbunden ist, kann man aufgrund der Selektion mit einer Verarmung dieser Motive in den Genomen der Linie, die die Methylase enthält, rechnen. Darüber hinaus wurde die Methylierung in bestimmten Zusammenhängen mit einer Hypermutation der modifizierten Base in Verbindung gebracht, was zur programmierten Selbstzerstörung des Motivs führte16.

Wir identifizierten 14 linienspezifische Motive (siehe Methoden), und 6 dieser 14 (42,9 %) schienen nach mehrfacher Testkorrektur in den Liniengenomen deutlich abgereichert zu sein, während keines angereichert war (Abb. 6). Zum Vergleich wurde die Motivdichte für 16 bis 58 Kontrollmotive gleicher Länge und Basenzusammensetzung, die durch Permutation erhalten wurden (z. B. GATC-Kontrollmotive umfassen AGTC, ATCG und CTAG), für jedes linienspezifische Motiv berechnet. Wenn mehr als 58 mögliche Kontrollmotive existierten, wurden 50 durch zufälliges Mischen ausgewählt. Zwischen 0 % und 13,7 % der permutierten Motive waren erschöpft (durchschnittlich 3,8 %) und zwischen 0 % und 37,5 % waren angereichert (durchschnittlich 5,1 %) (Abb. 6, ergänzende Abbildungen 14–21, ergänzende Tabelle 4). Bemerkenswert ist, dass von den sechs linienspezifischen Motiven, die in erheblichem Maße abgereichert zu sein schienen, fünf Motive palindromisch waren, sodass jeder Locus mit diesen Motiven eine methylierte Base auf beiden Strängen aufwies. Das nicht-palindromische Motiv, das abgereichert wurde (TCAGG/CCTGA), ist ein Typ-IIS-Motiv, bei dem die Motive umgekehrte Komplemente zueinander sind und daher beide DNA-Stränge an diesen Orten ebenfalls methyliert sind. Ob sich die Selektion unterschiedlich auf Motive auswirkt, die an beiden Strängen methyliert sind, ist eine weitere Frage, die wir in diesem Datensatz nicht abschließend beurteilen können. Wir haben keine Anreicherung von Motiven beobachtet, die aus Übergängen oder Transversionen an der modifizierten Stelle für 5mC- und 4mC-Modifikationen resultieren würden, die das Ausmaß der Verarmungen nicht erklären könnten (ergänzende Abbildung 21), was darauf hindeutet, dass Hypermutation allein die Ergebnisse nicht erklären kann16, 17.

(Oben) Ein Schwarmdiagramm mit Z-Scores der Dichte (Motive/Kilobase) jedes Motivs über die Genome hinweg. Zweiseitige T-Tests wurden für jedes Zielmotiv zusammen mit seinen Kontrollmotiven durchgeführt und Benjamini-Hochberg-Tests wurden separat mit FDR < 1 % durchgeführt. Nicht angepasste p-Werte werden wie folgt angegeben: *p < = 0,05, **p < = 0,01, ***p < =1e-3, ****p < =1e-4; „ns“ gibt an, dass der gemeldete p-Wert nach Tests mit Benjamini-Hochberg bei FDR = 1 % als nicht signifikant eingestuft wurde. (Mitte) Daten werden als Motive pro Kilobase angezeigt. Kästchen zeigen Datenquartile und Whiskers zeigen den 1,5-fachen IQR, wobei Rauten Ausreißer darstellen. (Unten) MLST-Markergen-Kladogramme nach Arten unter Verwendung aller methylomanalysierten Genome mit Heatmap linienspezifischer DNA-Methylierungsmotive. (Alle) B. fragilis-Genome, n = 108. B. ovatus-Genome, n = 44. B. vulgatus-Genome, n = 28.

Die in dieser Arbeit durchgeführte globale Methylomanalyse in Kombination mit zusammenhängenden Long-Read-Assemblys ergab eine epigenetische Landschaft in klinischen BFG-Isolaten von immenser und bisher nicht erkannter Vielfalt. Hunderte von DNA-Methylierungsmotiven wurden identifiziert und die meisten Motive waren einzigartig. Obwohl einige Arten (B. fragilis und P. distasonis) offenbar artspezifische Motive enthielten, die in jedem analysierten Genom nachgewiesen werden konnten, war dies ungewöhnlich und fast alle Motivkombinationen wurden nur in einzelnen Isolaten beobachtet. Darüber hinaus variierte die Zusammensetzung des DNA-Methylierungsmotivs selbst über kurze phylogenetische Distanzen zwischen den Genomen einer Art dramatisch, was auf eine ausgeprägte epigenetische Diversität selbst unter eng verwandten Abstammungslinien innerhalb der BFG schließen lässt.

Während eine beträchtliche Diversität der DNA-Methylierungsmuster zwischen verschiedenen Arten innerhalb der bakteriellen Lebensdomäne beobachtet wurde43, wurden bisher keine umfassenden Untersuchungen zur DNA-Methylierungsdiversität zwischen verschiedenen Arten innerhalb einer Gattung durchgeführt und eng verwandte Arten wurden nicht systematisch verglichen. Unsere Studie legt eine umfassende Analyse der Beziehungen zwischen dem Methylom, der Phylogenie innerhalb und zwischen den Arten und der Diversität innerhalb der BFG vor, basierend auf einer einzigartigen historischen Sammlung klinischer BFG-Isolate. Die Isolatsammlung, auf der die Studie basiert, verfügt über zusätzliche Funktionen, die unseren Datensatz erheblich aufwerten. Erstens: Während sich viele frühere BFG-Studien auf Stämme konzentrierten, die aus dem GI-Mikrobiom gewonnen wurden, enthält unser Set hauptsächlich klinische BFG-Isolate, die an Infektionsstellen kultiviert wurden und deren Genome und Methylome Untersuchungen darüber erleichtern könnten, wie sich invasive Isolate von kommensalen GI-Stämmen unterscheiden können. Zweitens erstreckt sich unsere Sammlung über vier Jahrzehnte und reicht für eine Reihe häufig verwendeter Wirkstoffe bis in die Zeit vor und in die frühen Antibiotika-Ära zurück, sodass untersucht werden kann, wie sich sowohl das Resistom als auch die Methylome unter der Auswahl dieser Wirkstoffe über einen Zeitraum von vier Jahrzehnten entwickelt haben.

Unsere Ergebnisse werfen die Frage auf, ob BFG-Arten vielfältigere Epigenome aufweisen als andere Krankheitserreger und Kommensalen, die im menschlichen GI-Mikrobiom leben. Die Beantwortung dieser Frage ist angesichts der begrenzten Menge verfügbarer Daten eine Herausforderung. Die Rarefaktionsanalyse zeigte, dass die Panepigenome der von uns untersuchten BFG-Arten im gesamten sequenzierten Satz offen blieben und keine Anzeichen einer asymptotischen Sättigung zeigten, was auf eine erhebliche, nicht beprobte Diversität schließen lässt. Vergleich mit einer ähnlichen Verdünnungsanalyse veröffentlichter Daten von C. difficile9. und B. breve41 deuteten auf eine etwas geringere Diversität der DNA-Methylierungsmotive innerhalb der Spezies hin als die BFG. Diese Analyse bringt jedoch einige wichtige Vorbehalte mit sich. Erstens ist es möglich, dass die zugrunde liegende Wirtsgenomdiversität in B. breve- und C. difficile-Studien geringer war, was zu einer Unterschätzung der Methylierungsmotivdiversität führen könnte. Zweitens ist es möglich, dass in der vorliegenden Studie empfindlichere Methoden zum Nachweis von Methylierungsmotiven verwendet wurden, was auch zu einer größeren scheinbaren Diversität führen würde. Um festzustellen, ob die Methylomdiversität tatsächlich durch Phylogenie oder Lebensstil beeinflusst wird, sind gründlichere Untersuchungen an anderen Arten erforderlich.

Obwohl wir in dieser Studie die transkriptionellen Konsequenzen der Methylierung nicht untersucht haben, haben frühere Arbeiten eine signifikante Regulierung der Transkription durch DNA-Methylierung gezeigt42. Es kann sinnvoll sein, zu spekulieren, dass die von uns beobachtete epigenomische Diversität eine proportionale Transkriptionsdiversität innerhalb von Populationen mit Fitnesskonsequenzen erzeugen kann, die durch Selektion beeinflusst werden. Unser Befund einer offensichtlichen genomweiten Depletion von DNA-Methylierungsmotiven innerhalb einzelner Bakterienlinien hat Auswirkungen auf die Evolution des BFG-Genoms. In diesen Fällen gab es typischerweise keinen gleichzeitigen Anstieg der Motive, die aus Mutationen des methylierten Nukleotids resultieren würden, die ausreichend groß wären, um die Erschöpfung zu erklären, was darauf hindeutet, dass eine durch Methylierung verursachte Hypermutation nicht allein für die epigenombedingte Genomveränderung verantwortlich ist. Andererseits könnte eine Selektion, die darauf abzielt, methylierte Motive zu entfernen, die schädliche Auswirkungen auf die Fitness haben, diese Ergebnisse erklären, da Mutationen, die die Methyltransferase-Erkennung eliminieren, nicht auf das methylierte Nukleotid beschränkt sein müssen. Weitere Untersuchungen sind erforderlich, um die zugrunde liegenden Mechanismen zu verstehen.

In unserem Datensatz untersuchten wir die spezifische Frage, ob Methylierungsmotive möglicherweise so positioniert sind, dass sie die Transkription von AMR-Genen beeinflussen und die Expression von AMR-Phänotypen beeinflussen oder steuern. Wir fanden heraus, dass alle von uns untersuchten Klassen von AMR-Genen, einschließlich des wichtigen cfiA-Gens, das eine Beta-Lactamase kodiert, die eine Carbapenem-Resistenz vermittelt, Methylierungsmotive sowohl in vorgelagerten intergenen Regionen als auch im Genkörper enthielten. Darüber hinaus spiegelte sich die gesamte epigenomische Motivvielfalt der Isolate in der Vielfalt der Methylierungsmotive neben und innerhalb von AMR-Genkörpern wider. Angesichts unserer Ergebnisse einer umfassenden potenziellen Methylierung aller von uns untersuchten Klassen von AMR-Genen kann man davon ausgehen, dass die Transkription dieser Gene und die daraus resultierenden Resistenzphänotypen davon beeinflusst werden, welche Methylasen vorhanden sind und wie sie exprimiert werden. Die durch die Diversität des Epigenoms bedingte Heterogenität im AMR-Phänotyp kann für BFG-Populationen von Vorteil sein, und die reinigende Selektion, die häufig bei der Exposition gegenüber Antibiotika auftritt, kann bestimmte epigenomische Methylierungsmuster gegenüber anderen selektieren.

Die Verknüpfung von DNA-Methylierungsmotiven mit verwandten DNA-Methyltransferasen allein auf der Grundlage einer Genomanalyse ist eine Herausforderung. Viele der DNA-Methyltransferasen, die von Genen in bakteriellen Genomen, insbesondere in mobilen genetischen Elementen, kodiert werden, sind unter den meisten Erkrankungen funktionslos. Es wurde vermutet, dass die Inaktivierung von Mutationen in DNA-Methyltransferasen oder anderen genetischen Schaltern wie invertierbaren Promotoren, die die Methyltransferase-Expression steuern, ein häufiger evolutionärer Mechanismus sein könnte, der zur Variation von Transkriptionsprogrammen verwendet wird44. Tatsächlich hatten fast alle Genome in unserem Satz eine größere Anzahl potenzieller DNA-Methyltransferase-Gene als nachgewiesene methylierte DNA-Motive, was entweder auf das Vorhandensein allgegenwärtiger stiller Methyltransferasen innerhalb des BFG oder alternativ auf Methyltransferasen schließen lässt, die unter Standardwachstumsbedingungen nicht exprimiert werden auf Rich Media. Dies kann zwar interessante evolutionäre und funktionelle Implikationen mit sich bringen, bringt jedoch zusätzliche technische Herausforderungen bei der Zuordnung spezifischer Methyltransferasen zu spezifischen Motiven mit sich. Eine weitere Komplikation in unserem Datensatz ist die Tatsache, dass die meisten Motive nur in einem oder wenigen Genomen nachgewiesen wurden, was angesichts der Vielfalt gleichzeitig auftretender stiller Methylasen einen systematischen Ansatz zur Herstellung von Verknüpfungen ausschließt. Darüber hinaus weist die hier angewandte Nanodisco-Methode eine Sensitivität von weniger als 100 % auf, sodass wir davon ausgehen, dass einige Methylierungsmotive unentdeckt blieben40.

Von den mehr als 6000 potenziellen Methyltransferase-Genen, die wir in unserem Genomdatensatz entdeckten, befanden sich die meisten in den Schalen- oder Wolkenkompartimenten, oft in Verbindung mit mobilen genetischen Elementen. Diese Ergebnisse stimmen mit denen anderer Studien35,36 überein und stimmen auch mit der Annahme überein, dass viele der Methylasen Bestandteile von Restriktionsmodifikationen oder anderen Abwehrsystemen sind. Wichtig ist, dass wir herausfanden, dass etwa 1000 der identifizierten Methyltransferase-Gene mit intakten Prophagen assoziiert waren. Die Netzwerkanalyse dieser Prophagengenome ergab einen bemerkenswerten Grad an Methyltransferase-Genfluss zwischen unterschiedlichen Phagen mit scheinbar modularem Austausch von Methyltransferasen, auch verschiedener Klassen, zwischen Phagengenomen. Diese Ergebnisse legen nahe, dass der genetische Austausch zwischen BFG-Phagen eine grundlegende Rolle als eine der entscheidenden Quellen für die Diversität des BFG-Epigenoms spielt. Zukünftige Studien werden erforderlich sein, um die genauen Beziehungen zwischen Phagen-Phagen-Wechselwirkungen im natürlichen GI-Mikrobiomkontext, in dem sie auftreten, zu untersuchen und zu untersuchen, wie diese Wechselwirkungen möglicherweise die Diversifizierung des BFG-Methyloms vorangetrieben haben.

Historische BFG-Isolate, die ursprünglich zwischen 1973 und 2018 aus klinischem Material kultiviert wurden, wurden entweder lyophilisiert oder in Magermilchmedien eingefroren in der Abteilung für Labormedizin des National Institutes of Health Clinical Center (Bethesda, MD) gelagert. Isolate wurden deidentifiziert und Metadaten einschließlich Jahr und Quelle/Ort der Kultur wurden beibehalten. Aufgrund dieser Anonymisierung konnte nicht ausgeschlossen werden, dass es sich bei einigen Isolaten in der Sammlung möglicherweise um Mehrfachproben eines einzelnen Patienten handelt. Die für die Sequenzierung ausgewählte Untergruppe der Isolate aus der größeren Gruppe wurde ausgewählt, um die Diversität hinsichtlich Daten, Quelle, Art und AMR-Profilen zu maximieren, und diese Auswahl reduzierte wahrscheinlich die Einbeziehung von Isolaten, die von einzelnen Patienten entnommen wurden. Es ist zu beachten, dass bei einer Untergruppe der Isolate genaue Informationen zum Datum und/oder zur Quelle der Kultur fehlten. Ausgewählte Isolate wurden aus ihren ursprünglichen historischen Beständen gewonnen und passagiert, um ihre Identität mithilfe der Bruker Biotyper MALDI-TOF-Massenspektrometrie mit der Herstellerdatenbank (Supplementary Data 2) zu bestätigen. Alle Isolate wurden auf BD BBLTM CDC Anaerobe 5 % Sheep Blood Agar (BD 221734, Becton, Dickinson and Company, Sparks, MD) oder BD BBLTM Brucella Agar, ergänzt mit 5 % Schafsblut, ergänzt mit Hämin und Vitamin K1 (BD 297716), gewonnen. Die Inkubation wurde im Allgemeinen 36–72 Stunden lang in anaeroben Gaskammern von Mitsubishi Anaero mit BD BBLTM GasPak CO2-Generatoren (BD 261205) bei 35–37 °C und 6 % CO2 durchgeführt. Die Isolate wurden unter aeroben Umgebungsbedingungen manipuliert. Bestätigte BFG-Isolate wurden anschließend erneut isoliert und zur anschließenden Kultivierung und zum Experimentieren bei –80 ° C in Cryosavers Magermilchmedien-Kryovials (Hardy Diagnostics, Santa Maria, CA) gelagert.

Die Empfindlichkeitsprüfung wurde unter Verwendung der Referenz-Agar-Verdünnungsmethode durchgeführt, wie in den Richtlinien des Clinical and Laboratory Standards Institute (CLSI) (9. Ausgabe, M11) oder im Wadsworth-KTL Anaerobic Bacteriology Manual (6. Ausgabe) beschrieben. Kurz gesagt, alle Empfindlichkeitstestmedien wurden frisch in Petrischalen mit 100-mm-Quadratgitter, gefüllt auf 30 ml, zubereitet und innerhalb einer Woche verwendet. Zur Inokulumvorbereitung wurden isolierte Kolonien, die aus gefrorenen Beständen gewonnen wurden, erneut auf Brucella-Agar, ergänzt mit 5 % Schafblut, Hämin und Vitamin K1 (BD 297716), isoliert und 40–48 Stunden lang gezüchtet, was zwei aufeinanderfolgende Passagen darstellte. Das ausgewählte Wachstum wurde dann in Brucella-Brühe (B3051, Sigma-Aldrich, St-Louis, MO) in einer Konzentration von 0,5 McFarland suspendiert, gemessen entweder mit einem DEN-1B-Densitometer (Grant Instruments, Cambridge, UK) oder einem Microscan-Trübungsmessgerät (Dade Behring). (heute Siemens) München, Deutschland).

Zwei Mikroliter jedes Testisolats (105 KBE/Spot) wurden dann auf frisch zubereiteten Brucella-Agar aufgetragen, der mit Hämin, Vitamin K1 (B2926, Sigma-Aldrich) und 5 % Schafsblut (Hemostat, Dixon, CA) angereichert war und das Antibiotikum enthielt und Konzentration der Wahl. Die getesteten Antibiotikakonzentrationen stimmten mit den vom CLSI ermittelten Konzentrationen überein, die als klinische Grenzwerte herangezogen wurden. Alle Platten wurden mit den folgenden Qualitätskontrollorganismen beimpft: E. coli 25922, B. thetaiotaomicron (ATCC 29741) und B. fragilis (ATCC 25285). Die Interpretationskriterien basierten auf den anaeroben CLSI-Breakpoints wie folgt (Antibiotikum gefolgt von S:I:R-MICs in μg/ml): Moxifloxacin 2:4:8; Ampicillin 0,5:1:2; Ampicillin/Sulbactam: 8/4:16/8:32/16; Clindamycin: 2:4:8; Metronidazol: 8:16:32; Meropenem: 4:8:16; Piperacillin/Tazobactam: 32/4:64/4:128/4; Tetracyclin: 4:8:16. Die Empfindlichkeitsbestimmungen wurden nach etwa 48 Stunden Wachstum durchgeführt.

Mehrere BFG-Kolonien aus einem einzelnen Isolat wurden zur Extraktion entweder in PBS oder sterilem Wasser resuspendiert. Extraktionen für die Illumina-Sequenzierung wurden mit DNeasy Blood & Tissue (Qiagen, Frederick, MD) und NucliSENS easyMag (bioMerieux, Durham, NC) durchgeführt. DNA mit hohem Molekulargewicht für die Long-Read-Sequenzierung wurde entweder mit dem Gentra Puregene Yeast and Bacteria Kit (Qiagen) unter Verwendung des Gram-negativen Protokolls oder einem maßgeschneiderten Maxwell HT gDNA Blood Kit (Promega Corporation, Madison, WI) Protokoll auf dem Kingfisher Flex-System extrahiert (ThermoFisher, North Logan, UT), bei dem DNA aus einem Bakterienvolumen extrahiert wurde, das 1/5 einer 10-μl-Impföse in der PBS-Suspension entspricht, und ein endgültiges Elutionsvolumen von 120 μl verwendet wurde. Die DNA-Konzentrationen wurden mit einem Qubit 4-Fluorometer (ThermoFisher) bestimmt und die Reinheit ausgewählter Proben mit dem Nanodrop One (ThermoFisher) bewertet.

DNA für die Illumina-Sequenzierung wurde mit dem RipTide High Throughput Rapid Library Prep Kit (IGenomX, Carlsbad, CA) vorbereitet. Bibliotheken wurden sequenziert, um 150-bp-PE-Reads auf einem Illumina HiSeq 2500 (Illumina, San Diego, CA) im NIH Intramural Sequencing Center (NISC) und auf einem Illumina NextSeq 550-Gerät im NIH Clinical Center zu generieren. Sequenzierungsdaten wurden mit fgbio v 0.7.0 gemäß dem iGenomX-Protokoll (http://fulcrumgenomics.github.io/fgbio/) demultiplext und demultiplexte Lesevorgänge aus verschiedenen Spuren wurden zusammengeführt. Bei einer Reihe von Igenomix RipTide-Bibliotheken traten Qualitätskontrollprobleme ungewisser Herkunft auf, die zu demultiplexten Lesedateien mit erheblicher Barcode-zu-Barcode-Vermischung zwischen Bibliotheken in einem bestimmten Sequenzierungslauf führten. Strenge Qualitätskontrollparameter wurden verwendet, um eine Teilmenge dieser Bibliotheken zum Polieren von Long-Read-Assemblys in nachfolgenden Schritten auszuwählen (siehe Genome Assembly).

Für die Genomsequenzierung von Oxford Nanopore Technologies (ONT) wurden Genombibliotheken aus extrahierter DNA unter Verwendung des ONT Rapid Barcoding Sequencing Kit (SQK-RBK004) und des Protokolls für die ONT R9.4.1-Durchflusszellen (ONT, Oxford, UK) erstellt. Die Sequenzierung wurde mit einem ONT GridION X5-Instrument durchgeführt. Zur Identifizierung des DNA-Methylierungsmotivs wurden gepaarte methylierungsfreie Bibliotheken mit dem Oxford Nanopore Rapid PCR Barcoding Kit (SQK-RPB004) und dem Protokoll (RPB_9059_v1_revL_14Aug2019) erstellt und mit ONT R9.4.1-Durchflusszellen unter Verwendung des ONT GridION Mk1-Instruments sequenziert. Das SQK-RPB004-Protokoll wurde geändert, um 7,5 ng der eingegebenen genomischen DNA zu verwenden, und der PCR-Schritt wurde geändert, um 7 Minuten und 30 Sekunden für den Verlängerungsschritt zu verwenden.

Für die PacBio-Genomsequenzierung wurde das Pacific Biosciences-Protokoll „Vorbereitung multiplexierter mikrobieller SMRTbell-Bibliotheken für das PacBio Sequel System“ verwendet, um Bibliotheken aus 3 μg DNA zu erstellen. Die Sequenzierung wurde mit einem Sequel-Sequenziergerät (Pacific Biosciences) unter Verwendung von SMRT-Zellen der Version 3 und Sequenzierungsreagenzien mit 10-Stunden-Filmen durchgeführt.

Bioinformatische Analysen wurden hauptsächlich auf dem NIH HPC Cluster Biowulf unter Verwendung installierter Module und verwalteter Conda v. 4.8.3-Umgebungen durchgeführt. Detaillierte Skripte und Anweisungen werden von Zenodo (https://zenodo.org/record/7510225) bereitgestellt. Illumina-Lesevorgänge wurden mit Cutadapt v. 2.645 zugeschnitten und mit SPAdes v. 3.13.146 zusammengestellt. Nachdem Contigs unter 500 bp entfernt wurden, wurden die Assemblies mit CheckM v 1.0.1847 auf Genomvollständigkeit und Kontamination überprüft. Rohlesevorgänge von Baugruppen mit einer Vollständigkeit von mehr als 98 % und weniger als 2 % Verunreinigungen wurden zum Polieren von ONT-Baugruppen mit langen Lesevorgängen mit Pilon v 1.2348 verwendet.

ONT-Basecalling wurde mit den Standalone-Versionen Guppy v. 3.3.3 und 3.4.5 unter Verwendung von qcat v.1.0.6-Demultiplexing durchgeführt. Das ONT GridION MK1-Instrument wurde auch für Basecalling und Demultiplexing mit MinKnow 19.12.6 (Guppy v. 3.2.10+aabd4ec, entspricht Guppy v. 3.4.5) verwendet. Filterung, Zusammenbau und Polieren wurden mit Snakemake v 5.13.049 verwaltet. ONT-Lesevorgänge wurden mit Filtlong v. 0.2.0 (https://github.com/rrwick/Filtlong) mit den Einstellungen --min_length 1000 --keep_percent 95 qualitätskontrolliert. Gefilterte Lesevorgänge wurden für die Zusammenstellung mit Flye v. 2.750 mit verwendet –meta-Flag für die meisten Assemblys aktiviert, aber deaktiviert, um eine Teilmenge von Assemblys zu optimieren, in denen zahlreiche falsche Contigs generiert wurden. Das Flag „Flye –asm-coverage“ wurde ebenfalls auf 100 gesetzt, um die Notwendigkeit einer Downsampling von ONT-Sequenzierungslesevorgängen zu vermeiden, um so viel Abdeckung wie möglich für die nachfolgende Politur beizubehalten. Das iterative Racon v. 1.14.351-Polieren wurde viermal durchgeführt, bevor Medaka v. 0.12.1 (https://github.com/nanoporetech/medaka) für einen letzten Fehlerkorrekturschritt verwendet wurde, gefolgt von Pilon, wenn kurze Lesevorgänge verfügbar waren. Die „Fixstart“-Option von Circlator v. 1.5.5 wurde bei Baugruppen verwendet, um Chromosomen an einem DNAA-Start neu auszurichten oder um Contigs an dem vorhergesagten Gen auszurichten, das der Mitte am nächsten liegt. Die polierten Medaka-Baugruppen wurden erneut mit CheckM auf Vollständigkeit bewertet und Baugruppen mit einer Vollständigkeit von mehr als 90 % und einer Verunreinigung von weniger als 3 % wurden für die anschließende Analyse aufbewahrt. rRNA-Operons wurden mit Barrnap v0.9 (https://github.com/tseemann/barrnap) quantifiziert.

Um PacBio-Genome zu konstruieren, wurden demultiplexte PacBio Sequel-Subreads mit der Hierarchical Genome Assembly Process (HGAP4)-Pipeline innerhalb des PacBio SMRT Link-Pakets Version 6.0.0 oder mit Canu (Version 1.6 oder 1.8)52 zusammengestellt. Die zusammengestellten Contigs wurden mit Circlator 1.5.353 zirkularisiert und korrigierte Lesevorgänge wurden von HGAP4 oder Canu generiert. In einigen Fällen wurden Entwurfs-Contigs durch Auswertung von Contig-Überlappungen mit Gepard v1.3054 und manuelles Zusammenfügen von Sequenzen zirkularisiert. Die zirkularisierten Chromosomen- und Plasmidsequenzen wurden mit der Resequenzierungspipeline PacBio SMRTLink Version 6.0.0 poliert. Die FASTA-Assembly wurde mit der Prokka-Pipeline (Version 1.13)55 kommentiert.

Die Multi-Locus-Sequenzanalyse (MLSA) wurde mit Long-Read-Assemblys aus dieser Studie und Referenzen des NCBI56 durchgeführt. Bei ONT-generierten Baugruppen war eine Frameshift-Korrektur erforderlich, um das Abrufen ganzer Gene für MLSA zu erleichtern. MEGAN v.6.19.257 wurde für DIAMOND v 0.9.3358-Alignments von ONT-Baugruppen mit einer Referenzdatei von Proteinsequenzen derselben Spezies verwendet, wie von Bruker Biotyper bestimmt, um eine Frameshift-korrigierte Fasta-Datei auszugeben, wie zuvor beschrieben59. Alle Baugruppen und Referenzen wurden mit Prokka v. 1.4.655 unter Verwendung einer benutzerdefinierten Bacteroides-Proteindatenbank kommentiert, die über Zenodo erhältlich ist (https://zenodo.org/record/7510225). Locus-Tags, die mit Referenz-MLSA-Schema-Genabfragen60 mit BLAST v 2.10.0+ übereinstimmten. BLASTn61 und BLASTx gegen die von Prokka ausgegebenen Fasta-Nukleotid-/Proteindateien wurden für die Gensuche identifiziert. Annotationen, die aufgrund von Frameshift immer noch abgeschnitten waren, wurden durch manuelle Erfassung der geteilten Annotation und der mit Prokka identifizierten intergenen Region behoben. Die Gene wurden per Locus-Tag abgerufen und zur Ausrichtung mit MEGA Spalten mit weniger als 75 % Belegung wurden mit trimAL v. 1.4.rev1563 entfernt. RaxML v. 8.2.1264 wurde verwendet, um einen phylogenetischen Baum unter Verwendung von 20 Baumsuchern mit dem GTRGAMMA-Modell zu generieren und mit 500 Bootstraps zu testen. Der entwurzelte Baum wurde mit ggtree65 visualisiert.

Mash v. 2.366 mit einer Skizzengröße von 10.000 wurde für Gesamtgenomvergleiche unter Verwendung von Assemblies ohne Frameshift-Korrektur verwendet. Der 1-Mash-Abstand wurde als Schätzung der durchschnittlichen Nukleotididentität (ANI) verwendet und zusätzliche von NCBI abgerufene Referenzbaugruppen wurden in die Vergleiche einbezogen. Die Heatmap wurde unter Verwendung von R 4.2.1 mit ComplexHeatmap v 2.14.067 erstellt, wobei Dendsort auf Hclust-Abstände angewendet wurde, die mit der Ward-D2-Methode berechnet wurden. Abricate (https://github.com/tseemann/abricate) mit einer Mindestabdeckung von 80 % und einer Mindestidentität von 80 % wurde verwendet, um AMR-Gene anhand einer zusammengesetzten Datenbank abzufragen, die für Bacteroides68,69,70,71 (https://github.com/tseemann/abricate) kuratiert wurde. com/thsyd/bfassembly) und 1911 AMR-Gene gefunden. Eine ausführliche Ausgabetabelle finden Sie in den Zusatzdaten 12.

GTDB-Tk v2.0.0 wurde mit Standardeinstellungen mit der Referenzdatenbank r207 verwendet, um alle Genome im Set30 zu klassifizieren. Die Übereinstimmung zwischen GTDB-Tk und MALDI zur Artenidentifizierung (Übereinstimmung von 360/383 Genomen oder 94,0 %) basierte auf der Annahme der Gleichwertigkeit von Bacteroides vulgatus (früherer Name) und Phocaeicola vulgatus (neuer Name). Zusammenfassende Metadaten für Isolate und GenBank-Referenzen finden Sie in den Zusatzdaten 2.

Um Assemblierungsfehler im Zusammenhang mit der Nanopore-Sequenzierung zu korrigieren, wurde Proovframe v0.9.7 (und Diamond v2.0.8) (https://github.com/thackl/proovframe) verwendet, um Indels zu korrigieren, indem polierte BFG-Genome mit der Genbank-Nr-Datenbank abgeglichen wurden ( Release 245) und Ersetzen von Indel-Regionen durch Ns, um die ORF-Kontiguität zu verbessern (verfügbar über Zenodo unter https://zenodo.org/record/7510225). Wenn dieser Indel-Korrekturschritt nicht durchgeführt wird, können die ORF-Zahlen durch gespaltene ORFs künstlich erhöht werden und die Berechnungen nach Genfamilien können beeinträchtigt werden. Proovframe-korrigierte Genome wurden dann mit Prokka annotiert. Alle genombasierten Analysen mit Ausnahme derjenigen im Zusammenhang mit Abb. 1 und den zugehörigen ergänzenden Abbildungen wurden unter Verwendung der Proovframe-korrigierten Genomen durchgeführt.

PPanGGOLiN v. 1.1.13631 wurde zur Erstellung von Pangenomdiagrammen und -statistiken verwendet. Die Genome wurden nach Arten gruppiert (MALDI-Methode) und Genome derselben Art wurden mit Standardeinstellungen als Eingabe für PPanGGOLiN verwendet. Unter Verwendung dieser Einstellungen wurden Gene innerhalb eines Schwellenwerts von 80 % durchschnittlicher Aminosäureidentität und 80 % Alignment-Anteil in Familien gruppiert. Um Verdünnungskurven für jedes Pangenom zu erstellen, wurden Matrixtabellen der PPanGGOLiN-Genfamilie in das MicroPan72-Verdünnungsmodul mit 50 Permutationen und das MicroPan Heaps-Modul mit 100 Permutationen eingegeben.

PPanGGOLiN-Pangenom-Grafikdateien für jede Art wurden als Eingabe für PPanGGOLin rgp33 mit Standardeinstellungen (Mindestlänge von 3000 Nukleotiden) verwendet, um akzessorische Regionen („Regionen der Genomplastizität“) zu finden und diese Regionen als Fasta-Dateien auszugeben (Supplementary Data 3). Die Sequenzen der akzessorischen Regionen wurden „all-vs-all“ unter Verwendung von BLASTN mit der Flagge „-perc_identity 90“ ausgerichtet. Anicalc aus dem CheckV-Paket wurde verwendet, um ANI und AF (Alignment Fraction) jedes Alignments zu berechnen, und die Anzahl der Alignments für jede akzessorische Regionssequenz mit ANI > = 95 und AF > = 85 wurde gezählt. Beachten Sie, dass Sequenzen akzessorischer Regionen häufig aus mehreren mobilen genetischen Elementen oder genomischen Inseln im Tandem bestehen können und mit Ausnahme von Bakteriophagen kein Versuch unternommen wurde, einzelne Elemente innerhalb dieser Regionen zu trennen.

Um Phagenabwehrsysteme in Nebenregionen zu finden, wurde Padloc v1.0.1 mit Datenbank v1.1.0 mit Standardeinstellungen73 verwendet. AMR-Gene wurden mit Abricate wie oben beschrieben identifiziert. DNA-Methyltransferase-Gene wurden mit dem DNA-Methylase-Finder wie unten beschrieben identifiziert. Bakteriophagen wurden mit Cenote-Taker 2 v2.1.3 (https://github.com/mtisza1/Cenote-Taker2) mit den Flags „-p false -db virion --lin_minimum_hallmark_genes 2 --circ_minimum_hallmark_genes 2“ identifiziert. Anschließend wurde CheckV v0.7.0 mit Datenbank v0.6 verwendet, um Prophagengrenzen zu finden und die Vollständigkeit jeder Phagensequenz abzuschätzen. Um konjugative Maschinengene zu finden, wurden ORFs für jede Sequenz der akzessorischen Region gefunden und mit Prodigal unter Verwendung des Flags „-p meta“ übersetzt. Anschließend wurden alle Aminosäuresequenzen anhand einer benutzerdefinierten HMM-Datenbank mit konjugativen Maschinenmodellen aus PFAM (Supplementary Data 13) abgefragt ) mit hmmer74 mit Flag „-E 1e-8“. Für eine positive Identifizierung einer bestimmten akzessorischen Regionssequenz waren Treffer für zwei oder mehr Gene erforderlich.

Um zirkuläre Plasmide/Episomen zu finden und zu charakterisieren, wurden Flye-Assembly-Infotabellen analysiert, um mutmaßliche zirkuläre Sequenzen mit einer Größe von weniger als 1,5 Megabasen zu extrahieren. Im Datensatz waren einige kurze Plasmide/Episomen in hohen Kopienzahlen (>50 Kopien pro Chromosom) vorhanden, und in einigen Fällen waren diese Plasmide/Episomen mit hoher Kopienzahl in niedrigeren Kopienzahlen in Begleitbibliotheken vertreten, die auf derselben Fließzelle sequenziert wurden . Wir kamen zu dem Schluss, dass es sich hierbei wahrscheinlich um eine Kreuzkontamination der Bibliothek handelte, und um die Wahrscheinlichkeit einer künstlichen Zuordnung von Plasmiden/Episomen zur falschen Bibliothek zu verringern, schlossen wir zirkuläre Contigs mit einer Abdeckung aus, die entweder 80 % des Abdeckungswerts des Bakterienchromosoms oder weniger betrug oder wenn Die Abdeckung betrug im Durchschnitt der gesamten Sequenz weniger als das 30-fache. Dies könnte zu einer Unterschätzung der tatsächlichen Anzahl von Plasmiden/Episomen geführt haben. Darüber hinaus setzt der Flye-Assembler gelegentlich Sequenzen künstlich als Concatemer aus zwei oder mehr Tandemkopien zusammen. Jede kreisförmige Sequenz wurde mit BLASTN an sich selbst ausgerichtet, und wenn die Gesamtlänge des Alignments mehr als 140 % der Gesamtlänge der Sequenz betrug, wurde das Episom auf eine Längeneinheit gekürzt, um mögliche künstliche Tandem-Duplikationen zu eliminieren. Um festzustellen, ob die gefilterten Sequenzen Plasmid-assoziierte Gene aufwiesen, wurde jede Sequenz durch MOBsuite75 laufen gelassen, gefolgt von RPS-BLAST gegen die CDD-Datenbank76 mit den Flags „-evalue 1e-2 -seg ja“. Die Treffer wurden dann mit einer Liste von Modellen verglichen, die sich auf Plasmidreplikasen, Relaxasen, konjugative Maschinen, Integrasen und Transponierungen beziehen (Supplementary Data 14). Außerdem wurde bei jeder Sequenz Abricate wie oben beschrieben durchgeführt. Plasmide/Episomen wurden mithilfe von anicalc und aniclust von CheckV mit den Flags „--min_ani 95 --min_tcov 85“ (minimale ANI = 95 %, minimale AF = 85 %) in ungefähre operative taxonomische Einheiten (OTUs) gruppiert. Der Netzwerkgraph wurde in Cytoscape77 visualisiert.

Die Identifizierung von DNA-Methyltransferase-Genen ist aus mindestens drei Gründen schwierig: (1) der Sequenzraum von DNA-Methyltransferase-Genen/-Domänen ist sehr groß und vielfältig, (2) einige DNA-Methyltransferase-Domänen weisen Homologie zu anderen Domänen auf, hauptsächlich RNA-Methyltransferase-Domänen, und (3) Viele DNA-Methyltransferase-Gene verfügen über mehrere Domänen (z. B. eine DNA-Methyltransferase-Domäne und eine DNA-Helikase), was zu einer potenziellen Annotation nur durch das Vergleichsgen (nicht durch das Methyltransferase-Gen) durch Standard-Annotationstools führt. Darüber hinaus sind viele mit Prokka oder NCBIs Prokaryotic Genome Annotation Pipeline (https://github.com/ncbi/pgap) annotierte Gene als „Methylase“ gekennzeichnet, und es ist unklar, ob es sich bei diesen Genen um DNA-Methyltransferasen, RNA-Methyltransferasen, Protein-Methyltransferasen usw. handelt. oder etwas anderes.

Um diese Probleme zu lösen, wurde der DNA Methylase Finder entwickelt. Eine vollständige Beschreibung aller Komponenten der Pipeline mit Dokumentation sowie die in dieser Arbeit verwendete vollständig ausführbare Version sind unter https://github.com/mtisza1/DNA_methylase_finder verfügbar. Zu Beginn der Pipeline werden eingegebene Proteinsequenzen (oder übersetzte Nukleotideingaben) mithilfe von hmmer anhand einer benutzerdefinierten Datenbank von HMMs aus verschiedenen DNA-Methyltransferase-Domänen aus PFAM, CDD, PDB, der Arbeit von Oliveira et al. 2014, abgefragt und zusätzliche Modelle generiert intern (https://zenodo.org/record/6647341/)37. Ausgerichtete Proteine ​​werden nur auf die ausgerichtete Region reduziert, die die mutmaßliche DNA-Methyltransferase-Domäne darstellt, und diese Regionen werden dann mit Hmmer gegen das gesamte CDD abgefragt, um zu sehen, ob andere Modelle (z. B. RNA-Methyltransferase-Domänen) besser übereinstimmen. Wenn ein DNA-Methyltransferase-Modell der beste Treffer bleibt, wird die mutmaßliche DNA-Methyltransferase mithilfe subtypspezifischer Modelle von Oliveira et al. (2014) typisiert (d. h. Typ I, Typ II, Typ IIG, Typ III) und die voraussichtliche Motivspezifität abgeleitet BLASTP-Alignment an DNA-Methylasen der REBASE-Datenbank (http://rebase.neb.com/rebase/rebase.html) mit bekannter Motivspezifität (standardmäßig 80 % AAI und 80 % AF-Schwellenwert zur Meldung der Spezifität). Wenn schließlich Nukleotid-Contigs/Genome als Eingabe verwendet wurden, werden Karten der DNA-Methylase-„Gennachbarschaften“ (flankierende +/- 5 Gene) mit Modellen für Restriktionsenzyme, Spezifitätsuntereinheitsgene, gefolgt von der gesamten CDD, annotiert. Dieses Tool und die Dokumentation sind auf GitHub verfügbar (https://github.com/mtisza1/DNA_methylase_finder). Datenbanken sind unter https://zenodo.org/record/6647341/ verfügbar.

Um die Empfindlichkeit des DNA Methylase Finder zu bewerten, wurde die REBASE-„Goldstandard“-Datenbank für DNA-Methyltransferasen verwendet (heruntergeladen am 21. Mai 2021). Diese Proteinsequenzen wurden mit Standardeinstellungen als Eingabe in den DNA Methylase Finder eingegeben. Um umgekehrt eine Falsch-Positiv-Rate zu ermitteln, wurden alle (6011) mutmaßlichen DNA-Methyltransferase-Gensequenzen aus den BFG-Genomen extrahiert und über BLASTP mit 1e-3-Bewertungsschwelle mit der REBASE-„Goldstandard“-Datenbank für DNA-Methyltransferasen verglichen.

Im Sensitivitätstest identifizierte der DNA Methylase Finder 100 % der mikrobiellen Methyltransferasen im Set. Die einzigen mutmaßlichen Methyltransferase-Proteine ​​in dieser REBASE-Datenbank, die vom DNA Methylase Finder nicht identifiziert wurden, waren Methyltransferase-Gene von Mäusen und Menschen sowie zwei Sulfotransferase-Gene (z. B. M.SenCer87DndC), die möglicherweise fälschlicherweise zur Datenbank hinzugefügt wurden.

Bei der Bewertung der Falsch-Positiv-Raten stellten wir fest, dass 329/6011 (5,4 %) identifizierte mutmaßliche Methyltransferase-Gene bei diesem E-Wert-Grenzwert keinen Treffer in der REBASE-Datenbank hatten. Während eine Reihe von Motiven in der Gruppe von 320 offensichtlich qualitativ hochwertige DNA-Methyltransferase-Domänen aufwiesen, basierend auf manuellen HHpred-Suchen, schienen andere echte falsch positive Ergebnisse zu sein. Wir schätzen daher die Falsch-Positiv-Rate auf Basis dieses Vergleichs auf bis zu 5,4 %.

Prophagensequenzen wurden wie oben beschrieben extrahiert und Virus-OTUs wurden durch Clustering mit anicalc und aniclust von CheckV mit den Flags „--min_ani 95 --min_tcov 85“ generiert (minimale ANI = 95 %, minimale AF = 85 %). Genomkarten wurden mit Cenote-Taker 2 erstellt und verwandte Genome wurden mit Clinker v0.0.2178 visualisiert. DNA-Methylase-Gene wurden mit dem DNA Methylase Finder identifiziert und mit Aniclust basierend auf einer durchschnittlichen Aminosäureidentität von 80 % und einem Alignment-Anteil von 80 % mit Alignments geclustert, die aus der „Alle-gegen-Alle“-BLASTP-Suche abgeleitet wurden.

Genomische DNA von 268 BFG-Isolaten aus fünf Arten (B. fragilis, B. ovatus, B. vulgatus, B. thetaiotaomicron und P. distasonis) wurde mit dem Oxford Nanopore SQK-RPB004-Kit wie oben beschrieben hergestellt. Diese Daten und Daten aus der Isolat-gematchten „nativen“ (SQK-RBK004) genomischen DNA-Sequenzierung wurden mit dem Guppy 5.0.7-Modus „hac/high-accuracy“ (re)basiert. Nanodisco v1.0.340 wurde gemäß den Anweisungen verwendet, wobei 300 „Chunks“ für jedes Genom analysiert wurden (Nanodisco-Differenzoption). Nach der Datenverarbeitung mit Nanodisco wurden alle Genome einer manuellen Motivkuration unterzogen, da ein erheblicher Teil der potenziellen Motive, die als Erstausgabe angegeben werden, wahrscheinlich falsch ist (normalerweise zu spezifisch oder zu weit gefasst). Die fachmännische Kuratierung wurde von einem einzelnen Bediener (MT) durchgeführt und basierte auf einer detaillierten Analyse der Programmergebnisse. Die Expertenkuratierung umfasste die Identifizierung und Korrektur zweier häufiger Arten von Fehlern. Ein Fehler betraf das Zusammenführen ähnlicher Motive und ein zweiter Fehler das Abschneiden von Motiven. Eine vollständige Erläuterung der Schritte zur Identifizierung und Korrektur dieser beiden Fehler finden Sie in den Beispielen in den ergänzenden Abbildungen. 8–9.

Motive, die letztendlich katalogisiert wurden, mussten bei fast allen Motivvorkommen einen offensichtlichen Signalunterschied aufweisen (gemäß der Untersuchung der „Refine_motifs“-Plots). Wir gehen davon aus, dass die Methode, die wir auf die manuelle Kuration angewendet haben, einen konservativen Ansatz darstellt und möglicherweise tatsächliche Methylierungsmotive ausschließt, die von Nanodisco schlecht erkannt wurden. Beachten Sie, dass DNA-Methyltransferasen vom Typ I auf ein Lückenmotiv und sein umgekehrtes Komplement (z. B. TCANNNNNGTC/GACNNNNNTGA) abzielen. Zum Zweck der Analyse haben wir beschlossen, nicht-palindromische Motive, auf die vermutlich dieselbe DNA-Methyltransferase abzielt, als separate Motive zu zählen. Wir haben die gleiche Zähllogik auf die externen Daten angewendet, die in den Analysen verwendet wurden9,41.

Für die Isolate mit Genomsequenzierungsdaten von Pacbio, Nanopore native und Nanopore PCR wurden De-novo-Motivaufrufe sowohl von der Standard-Pacbio-Pipeline als auch von Nanodisco durchgeführt. Die Ausgabetabellen wurden verglichen (Ergänzungstabelle 2).

Für jedes Motiv wurde seqkitlocate79 mit Flags versehen, um mehrdeutige Basen wie N oder W zu ermöglichen, um nach allen Instanzen jedes Motivs in allen relevanten Genomen zu suchen. Der Vergleich der Motivhäufigkeit zwischen Abstammungs-Ingroups und Outgroups wurde in Python mit dem Stats Annotator v0.4.3-Paket (https://github.com/trevismd/statannotations) unter Verwendung von T-Tests mit Benjamini-Hochberg-Korrektur (1 % FDR) durchgeführt.

In ähnlicher Weise wurden zur Beurteilung der Motivdichte in Genen (ergänzende Abbildung 13) Prokka-Ausgabegensequenzen wie oben mit seqkit ausgewertet. Seqkit wurde auch verwendet, um die Genlänge und den GC-Prozentsatz zu ermitteln. Abricate wurde auf allen Genen durchgeführt (wie oben beschrieben), um AMR-Gene zu identifizieren und zu kommentieren.

Da diese Studie eine retrospektive Sequenzierung verfügbarer gelagerter klinischer Isolate umfasste, wurde keine statistische Methode zur Vorabbestimmung der Probengröße verwendet. Sequenzierungsbibliotheken, die entweder Hinweise auf eine Kontamination oder eine schlechte Qualität zeigten, wurden verworfen und wiederholt; Es wurden keine anderen Daten von den Analysen ausgeschlossen. Diese Arbeit umfasste lediglich Sequenzierung, Methylombestimmung und bioinformatische Analyse nicht identifizierter Bakterienisolate und daher war keine Randomisierung erforderlich oder durchgeführt. Die Forscher waren für keine der Analysen verblindet. Nicht identifizierte BFG-Isolate wurden aus einer gefrorenen, gelagerten historischen Sammlung gewonnen und daher gab es für diese Sammlung keine vorab registrierten Kriterien.

Die in diesem Manuskript vorgestellte Arbeit umfasste nur nicht identifizierte klinische Bakterienisolate. Daher wurde diese Arbeit gemäß der OHSRP-Ausnahme 19-NIAID-00802 von der NIH IRB-Überprüfung ausgeschlossen.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.

Die in dieser Studie generierten Rohsequenzierungsdaten wurden in der NCBI-Datenbank unter dem BioProject-Zugangscode PRJNA646575 hinterlegt. Die ergänzende Datendatei 3 sowie die Rohdaten für die Konstruktion des PacBio- und Nanoporen-Genoms und die Nanodisco-Analyse sowie Anweisungen befinden sich in einer Zenodo-Datenbank unter https://zenodo.org/record/7510225 und https://zenodo.org/record/ 7548812. Die primären FAST5-Ausgabedateien der Nanoporensequenzierung sind auf Anfrage verfügbar und wurden aufgrund der Dateigröße (>10 TB) nicht in ein öffentliches Repository hochgeladen. Für Materialanfragen im Zusammenhang mit dieser Arbeit ist eine standardmäßige Materialtransfervereinbarung des NIH mit dem NIH und der US-Regierung erforderlich. Materialanfragen sind an John Dekker unter [email protected] zu richten.

Methylase Gene Finder ist für die Linux-Befehlszeile über GitHub https://github.com/mtisza1/DNA_methylase_finder verfügbar. Eine zugehörige Datenbank ist unter https://zenodo.org/record/6647341/ hinterlegt. Weitere Skripte finden Sie unter https://zenodo.org/record/7510225.

Hotchkiss, RD Die quantitative Trennung von Purinen, Pyrimidinen und Nukleosiden durch Papierchromatographie. J. Biol. Chem. 175, 315–332 (1948).

Artikel CAS PubMed Google Scholar

Palmer, BR & Marinus, MG Die Mutter- und DCM-Stämme von Escherichia coli – eine Rezension. Gene 143, 1–12 (1994).

Artikel CAS PubMed Google Scholar

Hoelzer, K., Shackelton, LA & Parrish, CR Vorhandensein und Rolle der Cytosinmethylierung in DNA-Viren von Tieren. Nukleinsäuren Res. 36, 2825–2837 (2008).

Artikel CAS PubMed PubMed Central Google Scholar

Weber, M. et al. Verteilung, Stummschaltungspotenzial und evolutionäre Auswirkungen der Promotor-DNA-Methylierung im menschlichen Genom. Nat. Genet 39, 457–466 (2007).

Artikel CAS PubMed Google Scholar

Jones, PA Funktionen der DNA-Methylierung: Inseln, Startstellen, Genkörper und darüber hinaus. Nat. Rev. Genet 13, 484–492 (2012).

Artikel CAS PubMed Google Scholar

Beaulaurier, J., Schadt, EE & Fang, G. Entschlüsselung bakterieller Epigenome mithilfe moderner Sequenzierungstechnologien. Nat. Rev. Genet 20, 157–172 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Oliveira, PH & Fang, G. Konservierte DNA-Methyltransferasen: ein Einblick in grundlegende Mechanismen der epigenetischen Regulation in Bakterien. Trends Microbiol 29, 28–40 (2021).

Artikel CAS PubMed Google Scholar

Labrie, SJ, Samson, JE & Moineau, S. Bakteriophagen-Resistenzmechanismen. Nat. Rev. Microbiol. 8, 317–327 (2010).

Artikel CAS PubMed Google Scholar

Oliveira, PH et al. Die epigenomische Charakterisierung von Clostridioides difficile zeigt eine konservierte DNA-Methyltransferase, die die Sporulation und Pathogenese vermittelt. Nat. Mikrobiol. 5, 166–180 (2020).

Artikel CAS PubMed Google Scholar

Carvalho, A., Mazel, D. & Baharoglu, Z. Ein Mangel an Cytosin-DNA-Methylierung führt bei Vibrio cholerae zu einer hohen Chaperoninexpression und Toleranz gegenüber Aminoglykosiden. PLoS Genet 17, e1009748 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Blyn, LB, Braaten, BA & Low, DA Regulierung der Pap-Pilin-Phasenvariation durch einen Mechanismus, der unterschiedliche Muttermethylierungszustände beinhaltet. EMBO J. 9, 4045–4054 (1990).

Artikel CAS PubMed PubMed Central Google Scholar

Kumar, S. et al. Die N4-Cytosin-DNA-Methylierung reguliert die Transkription und Pathogenese bei Helicobacter pylori. Nukleinsäuren Res. 46, 3429–3445 (2018).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Seib, KL, Srikhanta, YN, Atack, JM & Jennings, MP Epigenetische Regulierung von Virulenz und Immunevasion durch phasenvariable Restriktions-Modifikationssysteme in bakteriellen Krankheitserregern. Annu. Rev. Microbiol. 74, 655–671 (2020).

Artikel CAS PubMed Google Scholar

Putnam, CD Evolution des methylgesteuerten Fehlpaarungsreparatursystems in Escherichia coli. DNA Repair (Amst.) 38, 32–41 (2016).

Artikel CAS PubMed Google Scholar

Eutsey, RA et al. Genetische Stabilisierung der arzneimittelresistenten PMEN1-Pneumokokken-Linie durch ihr charakteristisches dpniii-Restriktions-Modifikationssystem. mBio 6, e00173 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Cherry, JL Methylierung-induzierte Hypermutation in natürlichen Bakterienpopulationen. J. Bakteriol. 200, https://doi.org/10.1128/JB.00371-18 (2018).

Cherry, JL Extreme C-zu-A-Hypermutation an einer Stelle der Cytosin-N4-Methylierung. mBio 12, https://doi.org/10.1128/mBio.00172-21 (2021).

Wexler, HM Bacteroides: das Gute, das Schlechte und das Wesentliche. Klin. Mikrobiol. Rev. 20, 593–621 (2007).

Artikel CAS PubMed PubMed Central Google Scholar

Louis, P. & Flint, HJ Bildung von Propionat und Butyrat durch die menschliche Darmmikrobiota. Umgebung. Mikrobiol. 19, 29–41 (2017).

Artikel CAS PubMed Google Scholar

Wexler, AG & Goodman, AL Die Perspektive eines Insiders: Bacteroides als Fenster in das Mikrobiom. Nat. Mikrobiol. 2, 17026 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Feng, J. et al. Polysaccharid-Nutzungsorte in Bacteroides bestimmen die Populationsfitness und Interaktionen auf Gemeindeebene. Cell Host Microbe 30, 200–215.e212 (2022).

Artikel CAS PubMed PubMed Central Google Scholar

Nagy, E., Urban, E., Nord, CE & Bacteria, ESGOARIA Antimikrobielle Empfindlichkeit von Isolaten der Bacteroides fragilis-Gruppe in Europa: 20 Jahre Erfahrung. Klin. Mikrobiol. Infizieren. 17, 371–379 (2011).

Artikel CAS PubMed Google Scholar

Wallace, MJ, Jean, S., Wallace, MA, Burnham, CD & Dantas, G. Vergleichende Genomik von Isolaten der Bacteroides fragilis-Gruppe deckt artabhängige Resistenzmechanismen auf und validiert klinische Instrumente zur Resistenzvorhersage. mBio 13, e0360321 (2022).

Artikel PubMed Google Scholar

Jiang, X. et al. Invertierbare Promotoren vermitteln bakterielle Phasenvariationen, Antibiotikaresistenzen und Wirtsanpassungen im Darm. Wissenschaft 363, 181–187 (2019).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Grondin, JM, Tamura, K., Dejean, G., Abbott, DW & Brumer, H. Polysaccharid-Nutzungsorte: Förderung mikrobieller Gemeinschaften. J. Bakteriol. 199, https://doi.org/10.1128/JB.00860-16 (2017).

Tribble, GD, Parker, AC & Smith, CJ Das mobilisierbare Transposon Tn4555 von Bacteroides integriert sich durch einen ortsspezifischen Rekombinationsmechanismus, der dem des grampositiven Bakterienelements Tn916 ähnelt. J. Bakteriol. 179, 2731–2739 (1997).

Artikel CAS PubMed PubMed Central Google Scholar

Stoddard, SF, Smith, BJ, Hein, R., Roller, BR & Schmidt, TM rrnDB: verbesserte Werkzeuge zur Interpretation der rRNA-Genhäufigkeit in Bakterien und Archaeen und eine neue Grundlage für die zukünftige Entwicklung. Nukleinsäuren Res. 43, D593–D598 (2015).

Artikel CAS PubMed Google Scholar

Saffert, RT et al. Vergleich des Bruker Biotyper-Matrix-unterstützten Laserdesorptions-Ionisations-Flugzeit-Massenspektrometers mit dem automatisierten Mikrobiologiesystem BD Phoenix zur Identifizierung gramnegativer Bazillen. J. Clin. Mikrobiol. 49, 887–892 (2011).

Artikel PubMed PubMed Central Google Scholar

Jean, S., Wallace, MJ, Dantas, G. & Burnham, CD Zeit für eine Gruppentherapie: Update zur Identifizierung, antimikrobiellen Resistenz, Taxonomie und klinischen Bedeutung der Bacteroides fragilis-Gruppe. J. Clin. Microbiol 60, e0236120 (2022).

Artikel PubMed Google Scholar

Chaumeil, PA, Mussig, AJ, Hugenholtz, P. & Parks, DH GTDB-Tk: ein Toolkit zur Klassifizierung von Genomen mit der Genome Taxonomy Database. Bioinformatik 36, 1925–1927 (2019).

Artikel PubMed PubMed Central Google Scholar

Gautreau, G. et al. PPanGGOLiN: Darstellung der mikrobiellen Vielfalt anhand eines partitionierten Pangenomdiagramms. PLoS Comput Biol. 16, e1007732 (2020).

Artikel PubMed PubMed Central Google Scholar

Pasolli, E. et al. Umfangreiche, unerforschte Diversität menschlicher Mikrobiome anhand von über 150.000 Genomen aus Metagenomen, die sich über Alter, Geografie und Lebensstil erstrecken. Zelle 176, 649–662.e620 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Bazin, A., Gautreau, G., Medigue, C., Vallenet, D. & Calteau, A. panRGP: eine pangenombasierte Methode zur Vorhersage genomischer Inseln und zur Erforschung ihrer Vielfalt. Bioinformatik 36, i651–i658 (2020).

Artikel CAS PubMed Google Scholar

Rozwandowicz, M. et al. Plasmide, die antimikrobielle Resistenzgene in Enterobacteriaceae tragen. J. Antimicrob. Chemother. 73, 1121–1137 (2018).

Artikel CAS PubMed Google Scholar

Murphy, J., Mahony, J., Ainsworth, S., Nauta, A. & van Sinderen, D. Bakteriophagen-Orphan-DNA-Methyltransferasen: Erkenntnisse aus ihrem bakteriellen Ursprung, ihrer Funktion und ihrem Vorkommen. Anwendungsumgebung. Microbiol 79, 7547–7555 (2013).

Artikel CAS PubMed PubMed Central ADS Google Scholar

Benler, S. et al. Frachtgene von Tn7-ähnlichen Transposons umfassen eine enorme Vielfalt an Abwehrsystemen, mobilen genetischen Elementen und Antibiotikaresistenzgenen. mBio 12, e0293821 (2021).

Artikel PubMed Google Scholar

Oliveira, PH, Touchon, M. & Rocha, EP Das Zusammenspiel von Restriktions-Modifikationssystemen mit mobilen genetischen Elementen und ihren prokaryotischen Wirten. Nukleinsäuren Res. 42, 10618–10631 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Tisza, MJ, Belford, AK, Dominguez-Huerta, G., Bolduc, B. & Buck, CB Cenote-Taker 2 demokratisiert die Virusentdeckung und Sequenzannotation. Virusentwicklung. 7, veaa100 (2021).

Artikel PubMed Google Scholar

Nayfach, S. et al. CheckV bewertet die Qualität und Vollständigkeit von aus Metagenomen zusammengesetzten Virusgenomen. Nat. Biotechnologie. https://doi.org/10.1038/s41587-020-00774-7 (2020).

Tourancheau, A., Mead, EA, Zhang, XS & Fang, G. Entdeckung mehrerer Arten der DNA-Methylierung aus Bakterien und Mikrobiomen mithilfe der Nanoporensequenzierung. Nat. Methoden 18, 491–498 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Bottacini, F. et al. Eine vergleichende Genom- und Methylomanalyse zeigt die Vielfalt der Restriktions-/Modifikationssysteme im Darmkommensal Bifidobacterium breve. Nukleinsäuren Res. 46, 1860–1877 (2018).

Artikel CAS PubMed Google Scholar

Ghosh, D., Veeraraghavan, B., Elangovan, R. & Vivekanandan, P. Antibiotikaresistenz und Epigenetik: mehr dahinter, als man auf den ersten Blick sieht. Antimikrob. Agenten Chemother. 64, https://doi.org/10.1128/AAC.02225-19 (2020).

Blow, MJ et al. Die epigenomische Landschaft der Prokaryoten. PLoS Genet 12, e1005854 (2016).

Artikel PubMed PubMed Central Google Scholar

Modlin, SJ et al. Treiber und Orte der Diversität in den DNA-Adenin-Methylomen von 93 klinischen Isolaten des Mycobacterium tuberculosis-Komplexes. Elife 9, https://doi.org/10.7554/eLife.58542 (2020).

Kechin, A., Boyarskikh, U., Kel, A. & Filipenko, M. cutPrimers: ein neues Werkzeug zum präzisen Ausschneiden von Primern aus Lesevorgängen gezielter Next-Generation-Sequenzierung. J. Comput Biol. 24, 1138–1143 (2017).

Artikel CAS PubMed Google Scholar

Bankevich, A. et al. SPAdes: ein neuer Genomassemblierungsalgorithmus und seine Anwendungen für die Einzelzellsequenzierung. J. Comput Biol. 19, 455–477 (2012).

Artikel MathSciNet CAS PubMed PubMed Central Google Scholar

Parks, DH, Imelfort, M., Skennerton, CT, Hugenholtz, P. & Tyson, GW CheckM: Bewertung der Qualität mikrobieller Genome, die aus Isolaten, Einzelzellen und Metagenomen gewonnen wurden. Genomres. 25, 1043–1055 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Walker, BJ et al. Pilon: ein integriertes Tool zur umfassenden Erkennung mikrobieller Varianten und zur Verbesserung der Genomassemblierung. PLoS One 9, e112963 (2014).

Artikel PubMed PubMed Central ADS Google Scholar

Molder, F. et al. Nachhaltige Datenanalyse mit Snakemake. F1000Res 10, 33 (2021).

Artikel PubMed PubMed Central Google Scholar

Kolmogorov, M., Yuan, J., Lin, Y. & Pevzner, PA Zusammenstellung langer, fehleranfälliger Lesevorgänge mithilfe von Wiederholungsdiagrammen. Nat. Biotechnologie. 37, 540–546 (2019).

Artikel CAS PubMed Google Scholar

Vaser, R., Sovic, I., Nagarajan, N. & Sikic, M. Schnelle und genaue De-novo-Genomassemblierung aus langen, unkorrigierten Lesevorgängen. Genomres. 27, 737–746 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Koren, S. et al. Canu: Skalierbare und genaue Long-Read-Assemblierung durch adaptive K-Mer-Gewichtung und Wiederholungstrennung. Genomres. 27, 722–736 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Hunt, M. et al. Circlator: Automatisierte Zirkularisierung von Genomassemblierungen mithilfe langer Sequenzierungslesungen. Genombiol. 16, 294 (2015).

Artikel PubMed PubMed Central Google Scholar

Krumsiek, J., Arnold, R. & Rattei, T. Gepard: ein schnelles und empfindliches Werkzeug zur Erstellung von Dotplots auf Genomebene. Bioinformatik 23, 1026–1028 (2007).

Artikel CAS PubMed Google Scholar

Seemann, T. Prokka: Schnelle Annotation des prokaryotischen Genoms. Bioinformatik 30, 2068–2069 (2014).

Artikel CAS PubMed Google Scholar

Sayers, EW et al. Datenbankressourcen des National Center for Biotechnology Information. Nukleinsäuren Res. 49, D10–D17 (2021).

Artikel CAS PubMed Google Scholar

Huson, DH et al. MEGAN Community Edition – interaktive Erkundung und Analyse umfangreicher Mikrobiom-Sequenzierungsdaten. PLoS Comput. Biol. 12, e1004957 (2016).

Artikel PubMed PubMed Central Google Scholar

Buchfink, B., Xie, C. & Huson, DH Schnelles und empfindliches Protein-Alignment mit DIAMOND. Nat. Methoden 12, 59–60 (2015).

Artikel CAS PubMed Google Scholar

Arumugam, K. et al. Annotierte Bakterienchromosomen aus Frame-Shift-korrigierten, lang gelesenen metagenomischen Daten. Mikrobiom 7, 61 (2019).

Artikel PubMed PubMed Central Google Scholar

Sakamoto, M. & Ohkuma, M. Identifizierung und Klassifizierung der Gattung Bacteroides durch Multilocus-Sequenzanalyse. Mikrobiol. (Lesen.) 157, 3388–3397 (2011).

Artikel Google Scholar

Camacho, C. et al. BLAST+: Architektur und Anwendungen. BMC Bioinforma. 10, 421 (2009).

Artikel Google Scholar

Edgar, RC MUSCLE: Mehrfachsequenz-Alignment mit hoher Genauigkeit und hohem Durchsatz. Nukleinsäuren Res. 32, 1792–1797 (2004).

Artikel CAS PubMed PubMed Central Google Scholar

Capella-Gutierrez, S., Silla-Martinez, JM & Gabaldon, T. trimAl: ein Werkzeug zum automatisierten Alignment-Trimmen in groß angelegten phylogenetischen Analysen. Bioinformatik 25, 1972–1973 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Stamatakis, A. RAxML Version 8: ein Tool für die phylogenetische Analyse und Postanalyse großer Phylogenien. Bioinformatik 30, 1312–1313 (2014).

Artikel CAS PubMed PubMed Central Google Scholar

Yu, G. Verwendung von ggtree zur Visualisierung von Daten zu baumähnlichen Strukturen. Curr. Protokoll. Bioinforma. 69, e96 (2020).

Google Scholar

Ondov, BD et al. Mash: Schnelle Genom- und Metagenom-Abstandsschätzung mit MinHash. Genombiol. 17, 132 (2016).

Artikel PubMed PubMed Central Google Scholar

Gu, Z., Eils, R. & Schlesner, M. Komplexe Heatmaps offenbaren Muster und Korrelationen in mehrdimensionalen Genomdaten. Bioinformatik 32, 2847–2849 (2016).

Artikel CAS PubMed Google Scholar

Zankari, E. et al. Identifizierung erworbener antimikrobieller Resistenzgene. J. Antimicrob. Chemother. 67, 2640–2644 (2012).

Artikel CAS PubMed PubMed Central Google Scholar

Sydenham, TV et al. Die vollständige Hybridgenomassemblierung klinischer multiresistenter Bacteroides fragilis-Isolate ermöglicht die umfassende Identifizierung antimikrobieller Resistenzgene und Plasmide. Mikrob. Genom. 5. https://doi.org/10.1099/mgen.0.000312 (2019).

Feldgarden, M. et al. Validierung des AMRFinder-Tools und der Resistenzgendatenbank durch Verwendung von Genotyp-Phänotyp-Korrelationen antimikrobieller Resistenz in einer Sammlung von Isolaten. Antimikrob. Agenten Chemother. 63, https://doi.org/10.1128/AAC.00483-19 (2019).

Jia, B. et al. CARD 2017: Erweiterung und modellzentrierte Kuratierung der umfassenden Antibiotikaresistenzdatenbank. Nukleinsäuren Res. 45, D566–D573 (2017).

Artikel CAS PubMed Google Scholar

Snipen, L. & Liland, KH Micropan: ein R-Paket für mikrobielle Pan-Genomik. BMC Bioinforma. 16, 79 (2015).

Artikel Google Scholar

Payne, LJ et al. Die Identifizierung und Klassifizierung antiviraler Abwehrsysteme in Bakterien und Archaeen mit PADLOC deckt neue Systemtypen auf. Nukleinsäuren Res. 49, 10868–10878 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Eddy, SR Beschleunigte Profil-HMM-Suchen. PLoS Comput Biol. 7, e1002195 (2011).

Artikel MathSciNet CAS PubMed PubMed Central ADS Google Scholar

Robertson, J. & Nash, JHE MOB-suite: Softwaretools für Clustering, Rekonstruktion und Typisierung von Plasmiden aus Draft-Assemblies. Mikrob. Genom. 4, https://doi.org/10.1099/mgen.0.000206 (2018).

Lu, S. et al. CDD/SPARCLE: die konservierte Domänendatenbank im Jahr 2020. Nucleic Acids Res. 48, D265–D268 (2020).

Artikel CAS PubMed Google Scholar

Shannon, P. et al. Cytoscape: eine Softwareumgebung für integrierte Modelle biomolekularer Interaktionsnetzwerke. Genomres. 13, 2498–2504 (2003).

Artikel CAS PubMed PubMed Central Google Scholar

Gilchrist, CLM & Chooi, YH Clinker & Clustermap.js: Automatische Generierung von Gencluster-Vergleichszahlen. Bioinformatik, https://doi.org/10.1093/bioinformatics/btab007 (2021).

Shen, W., Le, S., Li, Y. & Hu, F. SeqKit: ein plattformübergreifendes und ultraschnelles Toolkit für die FASTA/Q-Dateimanipulation. PLoS One 11, e0163962 (2016).

Artikel PubMed PubMed Central Google Scholar

Referenzen herunterladen

Wir danken den Mitarbeitern des Mikrobiologiedienstes in der Abteilung Labormedizin des NIH Clinical Center für die technische Unterstützung und danken Morgan Park vom NISC für die Zusammenstellung der PacBio-Genome. Diese Arbeit wurde durch das Intramural Research Program des National Institute of Allergy and Infectious Diseases (NIAID) finanziert und nutzte die Rechenressourcen des NIH HPC Biowulf-Clusters. (http://hpc.nih.gov). Die in dieser Arbeit geäußerten Inhalte und Ansichten stammen von den Autoren und geben nicht unbedingt die offiziellen Ansichten des NIH oder der US-Regierung wieder.

Open-Access-Förderung durch die National Institutes of Health (NIH).

Michael J. Tisza

Aktuelle Adresse: The Alkek Center for Metagenomics and Microbiome Research, Department of Molecular Virology and Microbiol, Baylor College of Medicine, Houston, TX, USA

Derek DN Smith

Aktuelle Adresse: Environment and Climate Change Canada, Abteilung für Ökotoxikologie und Wildtiergesundheit, Forschungsabteilung für Wildtiertoxikologie, Ottawa, ON, Kanada

Andrew E. Clark

Aktuelle Adresse: Abteilung für Pathologie, University of Texas Southwestern Medical Center, Dallas, TX, USA

Diese Autoren haben gleichermaßen beigetragen: Michael J. Tisza, Derek DN Smith

Abteilung für bakterielle Pathogenese und antimikrobielle Resistenz, LCIM, NIAID, NIH, Bethesda, MD, USA

Michael J. Tisza, Derek DN Smith, Pavel P. Khil und John P. Dekker

National Institutes of Health Clinical Center, NIH, Bethesda, MD, USA

Andrew E. Clark, Jung-Ho Youn, Pavel P. Khil und John P. Dekker

National Human Genome Research Institute, NIH, Bethesda, MD, USA

Beatrice B. Barnabas, Sean Black, Gerard G. Bouffard, Shelise Y. Brooks, Juyun Crawford, Holly Marfani, Lyudmila Dekhtyar, Joel Han, Shi-Ling Ho, Richelle Legaspi, Quino L. Maduro, Catherine A. Masiello, Jennifer C . McDowell, Casandra Montemayor, James C. Mullikin, Morgan Park, Karen Schandler, Brian Schmidt, Christina Sison, Sirintorn Stantripop, James W. Thomas, Pamela J. Thomas, Meghana Vemulapalli und Alice C. Young

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

MJT, DDNS, AEC, PPK und JPD haben die Studie konzipiert und gestaltet. JPD beschaffte und verwaltete die Finanzierung der Studie. AEC kuratierte die Isolate-Sammlung und verwaltete die Dokumentation der Isolat-Metadaten. AEC und DDNS führten Empfindlichkeitstests durch. MJT, DDNS, AEC und J.-HY führten eine Illumina- und/oder Nanopore-Genomsequenzierung durch. Das NISC Comparative Sequencing Program von NHGRI und NIH führte die Illumina- und PacBio-Sequenzierung ausgewählter Isolate durch. Morgan Park vom NISC führte die Zusammenstellung mikrobieller Genome aus PacBio-Lesevorgängen durch. MJT und JPD planten Nanopore-Methylom-Sequenzierungsexperimente. MJT führte eine Nanopore-Methylomsequenzierung und Methylomdatenanalyse durch. MJT hat das DNA-Methylase-Finder-Tool entwickelt und die Identifizierung und Analyse von Methyltransferasen durchgeführt. MJT, PPK und DDNS führten rechnerische Analysen genomischer Daten durch und führten ein kritisches Datenmanagement durch. MJT und DDNS erstellten Primärmanuskripte und ergänzende Abbildungen. JPD überwachte die Studie. MJT, DDNS, PPK und JPD führten eine kritische Prüfung sowohl experimenteller Daten als auch rechnerischer Analysen durch. MJT, DDNS, AEC und JPD haben das Manuskript geschrieben und überarbeitet. Alle Autoren haben das Manuskript kritisch überprüft und/oder bearbeitet.

Korrespondenz mit John P. Dekker.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Nature Communications dankt Pedro Oliveira und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Eine Peer-Review-Datei ist verfügbar.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Tisza, MJ, Smith, DDN, Clark, AE et al. Umherziehende Methyltransferasen erzeugen eine mosaikartige epigenetische Landschaft und beeinflussen die Evolution in der Bacteroides fragilis-Gruppe. Nat Commun 14, 4082 (2023). https://doi.org/10.1038/s41467-023-39892-6

Zitat herunterladen

Eingegangen: 24. Januar 2023

Angenommen: 29. Juni 2023

Veröffentlicht: 10. Juli 2023

DOI: https://doi.org/10.1038/s41467-023-39892-6

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.