Publications

2021

Multimodal Speech Summarization through Semantic Concept Learning
Shruti Palaskar, Ruslan Salakhutdinov, Alan W Black, Florian Metze
The 22nd Annual Conference of the International Speech Communication Association (INTERSPEECH), 2021
How2Sign: A Large-Scale Multimodal Dataset for Continuous American Sign Language
Amanda Duarte, Shruti Palaskar, Lucas Ventura, Deepti Ghadiyaram, Kenneth DeHaan, Florian Metze, Jordi Torres, Xavier Giró-i-Nieto
Computer Vision and Pattern Recognition (CVPR), 2021
Hierarchical Learning for Multimodal Language Generation
Shruti Palaskar, Florian Metze, Yonatan Bisk, Alan W Black
In preparation

2020

Transfer Learning for Multimodal Dialog
Shruti Palaskar*, Ramon Sanabria*, Florian Metze
Elsevier Computer Speech and Language (CS&L)
Grounded Sequence-to-Sequence Transduction
Lucia Specia, Raman Arora, Loic Barrault, Ozan Caglayan, Amanda Duarte, Desmond Elliott, Spandana Gella, Nils Holzenberger, Chiraag Lala, Sun Jae Lee, Jindrich Libovick' y, Pranava Madhyastha, Florian Metze, Karl Mulligan, Alissa Ostapenko, Shruti Palaskar, Ramon Sanabria, Josiah Wang
IEEE Journal for Select Topics in Signal Processing (JSTSP)
Speech Technology for Unwritten Languages
Odette Scharenborg, Laurent Besacier, Alan W Black, Mark Hasegawa-Johnson, Florian Metze, Graham Neubig, Sebastian Stüker, Pierre Godard, Markus Müller, Lucas Ondel, Shruti Palaskar, Philip Arthur, Francesco Ciannella, Mingxing Du, Erin Larsen, Danny Merkx, Rachid Riad, Liming Wang, Emmanuel Dupoux
IEEE Transactions for Audio, Speech and Language Processing (TASLP)
ASR Error Correction and Domain Adaptation using Machine Translation
Anirudh Mani*, Shruti Palaskar*, Nimshi Venkat Meripo, Sandeep Konam, Florian Metze
Oral Presentation International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020
Towards understanding ASR error correction for medical conversations
Anirudh Mani, Shruti Palaskar, Sandeep Konam
First Workshop on Natural Language Processing for Medical Conversations, ACL 2020

2019

Multimodal Abstractive Summarization for How2 Videos
Shruti Palaskar, Jindrich Libovický, Spandana Gella, Florian Metze
Association for Computational Linguistics (ACL), 2019
Learned in Speech Recognition: Contextual Acoustic Word Embeddigs
Shruti Palaskar*, Vikas Raunak*, Florian Metze
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019
Learning from Multiview Correlations in Open-Domain Videos
Nils Holzenberger*, Shruti Palaskar*, Pranava Madhyastha, Florian Metze, Raman Arora
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019
Multimodal Grounding for Sequence-to-Sequence Speech Recognition
Ozan Caglayan, Ramon Sanabria, Shruti Palaskar, Loïc Barrault, Florian Metze
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019
CMU Sinbad’s Submission to the DSTC7 AVSD Track
Ramon Sanabria*, Shruti Palaskar*, Florian Metze
Oral Presentation
7th Dialog State Tracking Challenge (DSTC) at AAAI, 2019

2018

Acoustic to Word Recognition with Sequence to Sequence Models
Shruti Palaskar and Florian Metze
IEEE Workshop on Spoken Language Technology (SLT), 2018
How2: A Large-scale Dataset for Multimodal Language Understanding
Ramon Sanabria, Ozan Caglayan, Shruti Palaskar, Desmond Elliott, Loïc Barrault, Lucia Specia, Florian Metze
NeurIPS workshop on Visually Grounded Interaction and Language (ViGIL), 2018
Multimodal Abstractive Summarization for Open-Domain Videos
Jindrich Libovicky, Shruti Palaskar, Spandana Gella, Florian Metze
Spotlight Presentation
NeurIPS workshop on Visually Grounded Interaction and Language (ViGIL), 2018
End-to-End Multimodal Speech Recognition
Shruti Palaskar*, Ramon Sanabria*, Florian Metze
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018
Linguistic unit discovery from multi-modal inputs in unwritten languages: Summary of the “Speaking Rosetta” JSALT 2017 Workshop
Odette Scharenborg, Laurent Besacier, Alan Black, Mark Hasegawa-Johnson, Florian Metze, Graham Neubig, Sebastian Stüker, Pierre Godard, Markus Müller, Lucas Ondel, Shruti Palaskar, Philip Arthur, Francesco Ciannella, Mingxing Du, Elin Larsen, Danny Merkx, Rachid Riad, Liming Wang, Emmanuel Dupoux
International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018

2017

Building an asr system for a low-resource language through the adaptation of a high-resource language asr system: Preliminary results
Odette Scharenborg, Francesco Ciannella, Shruti Palaskar, Alan Black, Florian Metze, Lucas Ondel, Mark Hasegawa-Johnson
ICNLSSP, 2017
Combining LSTM and Latent Topic Modeling for Mortality Prediction
Yohan Jo, Lisa Lee, Shruti Palaskar
Preprint, 2017

* - Equal contribution