Add step to replace the sample in BAM/VCFs based on the current DB info

bbimber · bbimber · commit 4cc44ec18ffe · 2024-06-12T21:37:03.000-07:00
diff --git a/SequenceAnalysis/api-src/org/labkey/api/sequenceanalysis/run/AbstractGatk4Wrapper.java b/SequenceAnalysis/api-src/org/labkey/api/sequenceanalysis/run/AbstractGatk4Wrapper.java
@@ -90,6 +90,7 @@ public List<String> getBaseArgs(@Nullable String toolName)
         List<String> args = new ArrayList<>();
         args.add(SequencePipelineService.get().getJavaFilepath());
         args.addAll(SequencePipelineService.get().getJavaOpts(_maxRamOverride));
+        args.add("-DGATK_STACKTRACE_ON_USER_EXCEPTION=true");
         args.add("-jar");
         args.add(getJAR().getPath());
 
@@ -98,6 +99,8 @@ public List<String> getBaseArgs(@Nullable String toolName)
             args.add(toolName);
         }
 
+
+
         return args;
     }
 
diff --git a/SequenceAnalysis/src/org/labkey/sequenceanalysis/SequenceAnalysisModule.java b/SequenceAnalysis/src/org/labkey/sequenceanalysis/SequenceAnalysisModule.java
@@ -59,6 +59,7 @@
 import org.labkey.sequenceanalysis.analysis.RnaSeqcHandler;
 import org.labkey.sequenceanalysis.analysis.SbtGeneCountHandler;
 import org.labkey.sequenceanalysis.analysis.UnmappedSequenceBasedGenotypeHandler;
+import org.labkey.sequenceanalysis.analysis.UpdateReadsetFilesHandler;
 import org.labkey.sequenceanalysis.button.AddSraRunButton;
 import org.labkey.sequenceanalysis.button.ArchiveReadsetsButton;
 import org.labkey.sequenceanalysis.button.ChangeReadsetStatusButton;
@@ -338,6 +339,7 @@ public static void registerPipelineSteps()
         SequenceAnalysisService.get().registerFileHandler(new DeepVariantHandler());
         SequenceAnalysisService.get().registerFileHandler(new GLNexusHandler());
         SequenceAnalysisService.get().registerFileHandler(new ParagraphStep());
+        SequenceAnalysisService.get().registerFileHandler(new UpdateReadsetFilesHandler());
 
         SequenceAnalysisService.get().registerReadsetHandler(new MultiQCHandler());
         SequenceAnalysisService.get().registerReadsetHandler(new RestoreSraDataHandler());
diff --git a/SequenceAnalysis/src/org/labkey/sequenceanalysis/analysis/UpdateReadsetFilesHandler.java b/SequenceAnalysis/src/org/labkey/sequenceanalysis/analysis/UpdateReadsetFilesHandler.java
@@ -0,0 +1,315 @@
+package org.labkey.sequenceanalysis.analysis;
+
+import htsjdk.samtools.SAMFileHeader;
+import htsjdk.samtools.SAMFileWriter;
+import htsjdk.samtools.SAMFileWriterFactory;
+import htsjdk.samtools.SAMReadGroupRecord;
+import htsjdk.samtools.SamReader;
+import htsjdk.samtools.SamReaderFactory;
+import htsjdk.samtools.util.FileExtensions;
+import htsjdk.variant.vcf.VCFFileReader;
+import htsjdk.variant.vcf.VCFHeader;
+import htsjdk.variant.vcf.VCFReader;
+import org.apache.commons.io.FileUtils;
+import org.apache.logging.log4j.Logger;
+import org.json.JSONObject;
+import org.labkey.api.module.ModuleLoader;
+import org.labkey.api.pipeline.PipelineJob;
+import org.labkey.api.pipeline.PipelineJobException;
+import org.labkey.api.pipeline.RecordedAction;
+import org.labkey.api.sequenceanalysis.SequenceAnalysisService;
+import org.labkey.api.sequenceanalysis.SequenceOutputFile;
+import org.labkey.api.sequenceanalysis.model.Readset;
+import org.labkey.api.sequenceanalysis.pipeline.AbstractParameterizedOutputHandler;
+import org.labkey.api.sequenceanalysis.pipeline.BcftoolsRunner;
+import org.labkey.api.sequenceanalysis.pipeline.SequenceAnalysisJobSupport;
+import org.labkey.api.sequenceanalysis.pipeline.SequenceOutputHandler;
+import org.labkey.api.sequenceanalysis.pipeline.SequencePipelineService;
+import org.labkey.api.sequenceanalysis.run.PicardWrapper;
+import org.labkey.api.util.FileType;
+import org.labkey.api.writer.PrintWriters;
+import org.labkey.sequenceanalysis.SequenceAnalysisModule;
+import org.labkey.sequenceanalysis.util.SequenceUtil;
+
+import java.io.File;
+import java.io.IOException;
+import java.io.PrintWriter;
+import java.nio.file.StandardCopyOption;
+import java.nio.file.StandardOpenOption;
+import java.util.ArrayList;
+import java.util.Arrays;
+import java.util.List;
+
+public class UpdateReadsetFilesHandler extends AbstractParameterizedOutputHandler<SequenceOutputHandler.SequenceOutputProcessor>
+{
+    public UpdateReadsetFilesHandler()
+    {
+        super(ModuleLoader.getInstance().getModule(SequenceAnalysisModule.class), "Update Sample/Header Information", "This will re-header any BAM or gVCF files using the sample name from the source readset. All inputs must be single-sample and have a readset attached to the record", null, List.of(
+
+        ));
+    }
+
+    @Override
+    public boolean doRunRemote()
+    {
+        return true;
+    }
+
+    @Override
+    public boolean doRunLocal()
+    {
+        return false;
+    }
+
+    @Override
+    public boolean canProcess(SequenceOutputFile f)
+    {
+        return f.getFile() != null && (
+                SequenceUtil.FILETYPE.gvcf.getFileType().isType(f.getFile()) ||
+                SequenceUtil.FILETYPE.bamOrCram.getFileType().isType(f.getFile())
+        );
+    }
+
+    @Override
+    public boolean doSplitJobs()
+    {
+        return true;
+    }
+
+    @Override
+    public SequenceOutputProcessor getProcessor()
+    {
+        return new Processor();
+    }
+
+    public static class Processor implements SequenceOutputProcessor
+    {
+        @Override
+        public void init(JobContext ctx, List<SequenceOutputFile> inputFiles, List<RecordedAction> actions, List<SequenceOutputFile> outputsToCreate) throws UnsupportedOperationException, PipelineJobException
+        {
+            if (inputFiles.size() > 1)
+            {
+                throw new PipelineJobException("This job expects a single input file!");
+            }
+
+            SequenceOutputFile so = inputFiles.get(0);
+            if (so.getReadset() == null)
+            {
+                throw new PipelineJobException("All inputs must have a readset, missing: " + so.getRowid());
+            }
+
+            Readset rs = SequenceAnalysisService.get().getReadset(so.getReadset(), ctx.getJob().getUser());
+            String newRsName = SequenceUtil.getLegalReadGroupName(rs.getName());
+
+            if (SequenceUtil.FILETYPE.bamOrCram.getFileType().isType(so.getFile()))
+            {
+                getAndValidateHeaderForBam(so, newRsName);
+            }
+            else if (SequenceUtil.FILETYPE.gvcf.getFileType().isType(so.getFile()) | SequenceUtil.FILETYPE.vcf.getFileType().isType(so.getFile()))
+            {
+                getAndValidateHeaderForVcf(so, newRsName);
+            }
+
+            ctx.getSequenceSupport().cacheObject("readsetId", newRsName);
+        }
+
+        private SAMFileHeader getAndValidateHeaderForBam(SequenceOutputFile so, String newRsName) throws PipelineJobException
+        {
+            SamReaderFactory samReaderFactory = SamReaderFactory.makeDefault();
+            try (SamReader reader = samReaderFactory.open(so.getFile()))
+            {
+                SAMFileHeader header = reader.getFileHeader().clone();
+                int nSamples = reader.getFileHeader().getReadGroups().size();
+                if (nSamples != 1)
+                {
+                    throw new PipelineJobException("File has more than one read group, found: " + nSamples);
+                }
+
+                List<SAMReadGroupRecord> rgs = header.getReadGroups();
+                String existingSample = rgs.get(0).getSample();
+                if (existingSample.equals(newRsName))
+                {
+                    throw new PipelineJobException("Sample names match, aborting");
+                }
+
+                return header;
+            }
+            catch (IOException e)
+            {
+                throw new PipelineJobException(e);
+            }
+        }
+
+        private VCFHeader getAndValidateHeaderForVcf(SequenceOutputFile so, String newRsName) throws PipelineJobException
+        {
+            try (VCFReader reader = new VCFFileReader(so.getFile()))
+            {
+                VCFHeader header = reader.getHeader();
+                int nSamples = header.getGenotypeSamples().size();
+                if (nSamples != 1)
+                {
+                    throw new PipelineJobException("File has more than one sample, found: " + nSamples);
+                }
+
+                String existingSample = header.getGenotypeSamples().get(0);
+                if (existingSample.equals(newRsName))
+                {
+                    throw new PipelineJobException("Sample names match, aborting");
+                }
+
+                return header;
+            }
+            catch (IOException e)
+            {
+                throw new PipelineJobException(e);
+            }
+        }
+
+        @Override
+        public void processFilesOnWebserver(PipelineJob job, SequenceAnalysisJobSupport support, List<SequenceOutputFile> inputFiles, JSONObject params, File outputDir, List<RecordedAction> actions, List<SequenceOutputFile> outputsToCreate) throws UnsupportedOperationException, PipelineJobException
+        {
+
+        }
+
+        @Override
+        public void processFilesRemote(List<SequenceOutputFile> inputFiles, JobContext ctx) throws UnsupportedOperationException, PipelineJobException
+        {
+            String newRsName = ctx.getSequenceSupport().getCachedObject("readsetId", String.class);
+            if (newRsName == null)
+            {
+                throw new PipelineJobException("Missing cached readsetId");
+            }
+
+            SequenceOutputFile so = inputFiles.get(0);
+            if (SequenceUtil.FILETYPE.bamOrCram.getFileType().isType(so.getFile()))
+            {
+                reheaderBamOrCram(so, ctx, newRsName);
+            }
+            else if (SequenceUtil.FILETYPE.gvcf.getFileType().isType(so.getFile()) | SequenceUtil.FILETYPE.vcf.getFileType().isType(so.getFile()))
+            {
+                reheaderVcf(so, ctx, newRsName);
+            }
+        }
+
+        private void reheaderVcf(SequenceOutputFile so, JobContext ctx, String newRsName) throws PipelineJobException
+        {
+            VCFHeader header = getAndValidateHeaderForVcf(so, newRsName);
+            String existingSample = header.getGenotypeSamples().get(0);
+
+            File sampleNamesFile =  new File(ctx.getWorkingDirectory(), "sampleNames.txt");
+            try (PrintWriter writer = PrintWriters.getPrintWriter(sampleNamesFile, StandardOpenOption.APPEND))
+            {
+                writer.println(newRsName);
+            }
+            catch (IOException e)
+            {
+                throw new PipelineJobException(e);
+            }
+            ctx.getFileManager().addIntermediateFile(sampleNamesFile);
+
+            File outputVcf = new File(ctx.getWorkingDirectory(), so.getFile().getName());
+
+            BcftoolsRunner wrapper = new BcftoolsRunner(ctx.getLogger());
+            wrapper.execute(Arrays.asList(BcftoolsRunner.getBcfToolsPath().getPath(), "reheader", "-s", sampleNamesFile.getPath(), "-o", outputVcf.getPath(), so.getFile().getPath()));
+
+            try
+            {
+                File outputIdx = SequenceAnalysisService.get().ensureVcfIndex(outputVcf, ctx.getLogger(), false);
+                FileUtils.moveFile(outputVcf, so.getFile(), StandardCopyOption.REPLACE_EXISTING);
+
+                FileType gz = new FileType(".gz");
+                File inputIndex = gz.isType(so.getFile()) ? new File(so.getFile().getPath() + ".tbi") : new File(so.getFile().getPath() + FileExtensions.TRIBBLE_INDEX);
+                FileUtils.moveFile(outputIdx, inputIndex, StandardCopyOption.REPLACE_EXISTING);
+
+                addTracker(so, existingSample, newRsName);
+            }
+            catch (IOException e)
+            {
+                throw new PipelineJobException(e);
+            }
+        }
+
+        private void addTracker(SequenceOutputFile so, String existingSample, String newRsName) throws IOException
+        {
+            File tracker = new File(so.getFile().getParentFile(), "reheaderHistory.txt");
+            boolean preExisting = tracker.exists();
+            try (PrintWriter writer = PrintWriters.getPrintWriter(tracker, StandardOpenOption.APPEND))
+            {
+                if (!preExisting)
+                {
+                    writer.println("OriginalSample\tNewSample");
+                }
+
+                writer.println(existingSample + "\t" + newRsName);
+            }
+        }
+
+        private void reheaderBamOrCram(SequenceOutputFile so, JobContext ctx, String newRsName) throws PipelineJobException
+        {
+            try
+            {
+                SAMFileHeader header = getAndValidateHeaderForBam(so, newRsName);
+
+                List<SAMReadGroupRecord> rgs = header.getReadGroups();
+                String existingSample = rgs.get(0).getSample();
+                rgs.get(0).setSample(newRsName);
+
+                File headerBam = new File(ctx.getWorkingDirectory(), "header.bam");
+                try (SAMFileWriter writer = new SAMFileWriterFactory().makeBAMWriter(header, false, headerBam))
+                {
+
+                }
+                ctx.getFileManager().addIntermediateFile(headerBam);
+                ctx.getFileManager().addIntermediateFile(SequencePipelineService.get().getExpectedIndex(headerBam));
+
+                File output = new File(ctx.getWorkingDirectory(), so.getFile().getName());
+                new ReplaceSamHeaderWrapper(ctx.getLogger()).execute(so.getFile(), output, headerBam);
+                if (!output.exists())
+                {
+                    throw new PipelineJobException("Missing file: " + output.getPath());
+                }
+
+                File outputIdx = SequencePipelineService.get().ensureBamIndex(output, ctx.getLogger(), false);
+
+                FileUtils.moveFile(output, so.getFile(), StandardCopyOption.REPLACE_EXISTING);
+                FileUtils.moveFile(outputIdx, SequenceAnalysisService.get().getExpectedBamOrCramIndex(so.getFile()), StandardCopyOption.REPLACE_EXISTING);
+
+                addTracker(so, existingSample, newRsName);
+            }
+            catch (IOException e)
+            {
+                throw new PipelineJobException(e);
+            }
+        }
+
+        private static class ReplaceSamHeaderWrapper extends PicardWrapper
+        {
+            public ReplaceSamHeaderWrapper(Logger log)
+            {
+                super(log);
+            }
+
+            @Override
+            protected String getToolName()
+            {
+                return "ReplaceSamHeader";
+            }
+
+            public void execute(File input, File output, File headerBam) throws PipelineJobException
+            {
+                List<String> params = new ArrayList<>(getBaseArgs());
+
+                params.add("--INPUT");
+                params.add(input.getPath());
+
+                params.add("--OUTPUT");
+                params.add(output.getPath());
+
+                params.add("--HEADER");
+                params.add(headerBam.getPath());
+
+                execute(params);
+            }
+        }
+    }
+}
diff --git a/SequenceAnalysis/src/org/labkey/sequenceanalysis/run/alignment/BWAMemWrapper.java b/SequenceAnalysis/src/org/labkey/sequenceanalysis/run/alignment/BWAMemWrapper.java
@@ -17,6 +17,7 @@
 import org.labkey.api.sequenceanalysis.pipeline.SamtoolsRunner;
 import org.labkey.api.sequenceanalysis.pipeline.ToolParameterDescriptor;
 import org.labkey.api.util.FileUtil;
+import org.labkey.sequenceanalysis.util.SequenceUtil;
 
 import java.io.File;
 import java.util.ArrayList;
@@ -61,7 +62,7 @@ protected void doPerformAlignment(AlignmentOutputImpl output, File inputFastq1,
             rg.add("LB:" + rs.getReadsetId().toString());
             rg.add("PL:" + (rs.getPlatform() == null ? "ILLUMINA" : rs.getPlatform()));
             rg.add("PU:" + (platformUnit == null ? rs.getReadsetId().toString() : platformUnit));
-            rg.add("SM:" + rs.getName().replaceAll(" ", "_"));
+            rg.add("SM:" + SequenceUtil.getLegalReadGroupName(rs));
             extraArgs.add("'" + StringUtils.join(rg, "\\t") + "'");
 
             getWrapper().performMemAlignment(getPipelineCtx().getJob(), output, inputFastq1, inputFastq2, outputDirectory, referenceGenome, basename, extraArgs);
diff --git a/SequenceAnalysis/src/org/labkey/sequenceanalysis/run/bampostprocessing/AddOrReplaceReadGroupsStep.java b/SequenceAnalysis/src/org/labkey/sequenceanalysis/run/bampostprocessing/AddOrReplaceReadGroupsStep.java
@@ -11,6 +11,7 @@
 import org.labkey.api.sequenceanalysis.pipeline.ReferenceGenome;
 import org.labkey.api.sequenceanalysis.run.AbstractCommandPipelineStep;
 import org.labkey.sequenceanalysis.run.util.AddOrReplaceReadGroupsWrapper;
+import org.labkey.sequenceanalysis.util.SequenceUtil;
 
 import java.io.File;
 
@@ -48,7 +49,7 @@ public Output processBam(Readset rs, File inputBam, ReferenceGenome referenceGen
 
         File outputBam = new File(outputDirectory, FileUtil.getBaseName(inputBam) + ".readgroups.bam");
         output.addIntermediateFile(outputBam);
-        output.setBAM(getWrapper().executeCommand(inputBam, outputBam, rs.getReadsetId().toString(), rs.getPlatform(), rs.getReadsetId().toString(), rs.getName().replaceAll(" ", "_")));
+        output.setBAM(getWrapper().executeCommand(inputBam, outputBam, rs.getReadsetId().toString(), rs.getPlatform(), rs.getReadsetId().toString(), SequenceUtil.getLegalReadGroupName(rs)));
 
         return output;
     }
diff --git a/SequenceAnalysis/src/org/labkey/sequenceanalysis/util/SequenceUtil.java b/SequenceAnalysis/src/org/labkey/sequenceanalysis/util/SequenceUtil.java

Original file line number	Diff line number	Diff line change
`@@ -90,6 +90,7 @@ public List<String> getBaseArgs(@Nullable String toolName)`
`90`	`90`	`List<String> args = new ArrayList<>();`
`91`	`91`	`args.add(SequencePipelineService.get().getJavaFilepath());`
`92`	`92`	`args.addAll(SequencePipelineService.get().getJavaOpts(_maxRamOverride));`
	`93`	`+ args.add("-DGATK_STACKTRACE_ON_USER_EXCEPTION=true");`
`93`	`94`	`args.add("-jar");`
`94`	`95`	`args.add(getJAR().getPath());`
`95`	`96`
`@@ -98,6 +99,8 @@ public List<String> getBaseArgs(@Nullable String toolName)`
`98`	`99`	`args.add(toolName);`
`99`	`100`	`}`
`100`	`101`
	`102`	`+`
	`103`	`+`
`101`	`104`	`return args;`
`102`	`105`	`}`
`103`	`106`